このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240528となっている論文です。

PDF登録状況(公開日: 20240528)

TitleAuthorsAbstract論文公表日・翻訳日
# 道徳的判断をテキストから復号する:パイロット研究

Decoding moral judgement from text: a pilot study ( http://arxiv.org/abs/2407.00039v1 )

ライセンス: Link先を確認
Diana E. Gherman, Thorsten O. Zander, (参考訳) 道徳的判断は、認知的・感情的な次元に関わる複雑な人間の反応である。 道徳的神経相関のいくつかは知られているが、単一の裁判所レベルで道徳的違反を検出することができるかどうかはまだ分かっていない。 本稿では,受動的脳-コンピュータインタフェースを用いたテキスト刺激による道徳的判断復号の実現可能性について検討する。 効果的な道徳的判断の誘因として,テキスト刺激提示に先立って映像音声による情緒的プライミングを用い,そのテキストを道徳的エージェントに属性付けする。 以上の結果から,道徳的整合性と不整合状態との信頼性の高い分類を実現するためには,さらなる努力が必要であることが示唆された。 我々は、中立と道徳的にチャージされた試験の精度の良い結果を得る。 本研究では,ニューロアダプティブな人間-コンピュータインタラクションと,より人間互換な大規模言語モデル(LLM)への道を開くことを目的とする。

Moral judgement is a complex human reaction that engages cognitive and emotional dimensions. While some of the morality neural correlates are known, it is currently unclear if we can detect moral violation at a single-trial level. In a pilot study, here we explore the feasibility of moral judgement decoding from text stimuli with passive brain-computer interfaces. For effective moral judgement elicitation, we use video-audio affective priming prior to text stimuli presentation and attribute the text to moral agents. Our results show that further efforts are necessary to achieve reliable classification between moral congruency vs. incongruency states. We obtain good accuracy results for neutral vs. morally-charged trials. With this research, we try to pave the way towards neuroadaptive human-computer interaction and more human-compatible large language models (LLMs)
翻訳日:2024-07-22 22:38:24 公開日:2024-05-28
# UCAVドッグファイトにおけるDRLを用いた空気圧決定法の検討

Interpretable DRL-based Maneuver Decision of UCAV Dogfight ( http://arxiv.org/abs/2407.01571v1 )

ライセンス: Link先を確認
Haoran Han, Jian Cheng, Maolong Lv, (参考訳) 本稿では, 深部強化学習(DRL)が高次機動決定に寄与する3層無人戦闘機(UCAV)のドッグファイトフレームを提案する。 4チャンネルの低レベル制御法が最初に構築され、続いて8つの基本的な飛行操作(BFM)を含む図書館が設けられている。 UCAVドッグファイトにおけるBFM選択にはDouble Deep Q Network (DDQN) が適用される。 シミュレーションの結果, エージェントはDT戦略に対して85.75%の勝利率を達成でき, 各種の未確認相手に対面した場合, 肯定的な結果が得られることがわかった。 提案した枠組みに基づいて,DRLをベースとしたドッグファイトの解釈性が有意に向上した。 ヨーヨーを行い、旋回率を調整し、操作性を高める。 ディーブ・アンド・チェイス」の行動の創発は、エージェントが相手の欠点を利用する新しい戦術を生成できることを示している。

This paper proposes a three-layer unmanned combat aerial vehicle (UCAV) dogfight frame where Deep reinforcement learning (DRL) is responsible for high-level maneuver decision. A four-channel low-level control law is firstly constructed, followed by a library containing eight basic flight maneuvers (BFMs). Double deep Q network (DDQN) is applied for BFM selection in UCAV dogfight, where the opponent strategy during the training process is constructed with DT. Our simulation result shows that, the agent can achieve a win rate of 85.75% against the DT strategy, and positive results when facing various unseen opponents. Based on the proposed frame, interpretability of the DRL-based dogfight is significantly improved. The agent performs yo-yo to adjust its turn rate and gain higher maneuverability. Emergence of "Dive and Chase" behavior also indicates the agent can generate a novel tactic that utilizes the drawback of its opponent.
翻訳日:2024-07-22 22:18:55 公開日:2024-05-28
# 深層学習によるインド株式市場のセクター収益性を探る

Exploring Sectoral Profitability in the Indian Stock Market Using Deep Learning ( http://arxiv.org/abs/2407.01572v1 )

ライセンス: Link先を確認
Jaydip Sen, Hetvi Waghela, Sneha Rakshit, (参考訳) 本稿では,Long-Term Memory(LSTM)モデルを用いた株価の正確な予測とそのポートフォリオ設計への応用について検討する。 株価の予測は不可能であるという効率的な市場仮説にもかかわらず、最近の研究は高度なアルゴリズムと予測モデルの可能性を示している。 この研究は、既存の株価予測手法に関する文献に基づいており、機械学習とディープラーニングアプローチへのシフトを強調している。 LSTMモデルでは、NSE、インドに上場している18のセクターで180銘柄の歴史的株価を用いて、将来の価格を予測する。 これらの予測は、各株の売買決定を導き、セクターの収益性を分析する。 この研究の主な貢献は、ロバストなポートフォリオ設計のための最適化LSTMモデルの導入、売買取引のためのLSTM予測の利用、セクターの収益性とボラティリティに関する洞察である。 その結果,株価を正確に予測し,投資決定を下す上でLSTMモデルの有効性が示された。 セクターの収益性と予測精度を比較することで、インドの現在の金融市場のダイナミクスに関する貴重な洞察を提供する。

This paper explores using a deep learning Long Short-Term Memory (LSTM) model for accurate stock price prediction and its implications for portfolio design. Despite the efficient market hypothesis suggesting that predicting stock prices is impossible, recent research has shown the potential of advanced algorithms and predictive models. The study builds upon existing literature on stock price prediction methods, emphasizing the shift toward machine learning and deep learning approaches. Using historical stock prices of 180 stocks across 18 sectors listed on the NSE, India, the LSTM model predicts future prices. These predictions guide buy/sell decisions for each stock and analyze sector profitability. The study's main contributions are threefold: introducing an optimized LSTM model for robust portfolio design, utilizing LSTM predictions for buy/sell transactions, and insights into sector profitability and volatility. Results demonstrate the efficacy of the LSTM model in accurately predicting stock prices and informing investment decisions. By comparing sector profitability and prediction accuracy, the work provides valuable insights into the dynamics of the current financial markets in India.
翻訳日:2024-07-22 22:18:55 公開日:2024-05-28
# 軌道最適化のためのモデルベース拡散

Model-Based Diffusion for Trajectory Optimization ( http://arxiv.org/abs/2407.01573v1 )

ライセンス: Link先を確認
Chaoyi Pan, Zeji Yi, Guanya Shi, Guannan Qu, (参考訳) 拡散モデルの最近の進歩は、反復的な精錬プロセスを通じて複雑な分布から高忠実度サンプルを生成する強力な能力を示している。 運動計画と制御における拡散モデルの実証的な成功にもかかわらず、これらの手法のモデルフリー性は、容易に利用可能なモデル情報を活用することができず、訓練データ以外の新しいシナリオ(例えば、異なるダイナミクスを持つ新しいロボット)にその一般化を制限しない。 本研究では,モデルベース拡散(MBD)を導入し,データのない軌道最適化(TO)問題の解法として拡散法を用いた最適化手法を提案する。 鍵となる考え方は、TO問題におけるモデル情報を活用することでスコア関数を明示的に計算することであり、これが我々のアプローチをモデルベース拡散と呼ぶ理由である。 さらに、MBDは外部データを必要としないが、様々な品質のデータと自然に統合して拡散過程を制御できる。 また、MBDはサンプリングベース最適化と興味深い関係があることも明らかにした。 実験的な評価から,MBDは接触に富む課題に挑戦する上で,最先端の強化学習およびサンプリングベースTO法より優れていることが示された。 さらに、MBDがデータと統合する能力は、標準拡散モデルの範囲を超えて、不完全かつ実用的なデータ(例えば、高次元ヒューマノイドの部分状態デモ)であっても、その汎用性と実用性を高める。

Recent advances in diffusion models have demonstrated their strong capabilities in generating high-fidelity samples from complex distributions through an iterative refinement process. Despite the empirical success of diffusion models in motion planning and control, the model-free nature of these methods does not leverage readily available model information and limits their generalization to new scenarios beyond the training data (e.g., new robots with different dynamics). In this work, we introduce Model-Based Diffusion (MBD), an optimization approach using the diffusion process to solve trajectory optimization (TO) problems without data. The key idea is to explicitly compute the score function by leveraging the model information in TO problems, which is why we refer to our approach as model-based diffusion. Moreover, although MBD does not require external data, it can be naturally integrated with data of diverse qualities to steer the diffusion process. We also reveal that MBD has interesting connections to sampling-based optimization. Empirical evaluations show that MBD outperforms state-of-the-art reinforcement learning and sampling-based TO methods in challenging contact-rich tasks. Additionally, MBD's ability to integrate with data enhances its versatility and practical applicability, even with imperfect and infeasible data (e.g., partial-state demonstrations for high-dimensional humanoids), beyond the scope of standard diffusion models.
翻訳日:2024-07-22 22:18:55 公開日:2024-05-28
# サーモグラフィー技術の探求:顔検出・認識・感情のための総合的な顔データセット

Exploring Thermography Technology: A Comprehensive Facial Dataset for Face Detection, Recognition, and Emotion ( http://arxiv.org/abs/2407.09494v1 )

ライセンス: Link先を確認
Mohamed Fawzi Abdelshafie Abuhussein, Ashraf Darwish, Aboul Ella Hassanien, (参考訳) このデータセットは、顔の検出、認識、感情分析のためにUNI-T UTi165Aカメラを用いてキャプチャされた6823の熱画像を含む。 この画像は、感情(幸せ、悲しみ、怒り、自然、驚き)を描いた2485の顔認識画像と、顔認識のための2054のイメージと、顔検出のための2284のイメージで構成されている。 このデータセットは、さまざまな条件、カラーパレット、撮影角度、ズームレベルをカバーしており、温度範囲は10{\deg}Cから400{\deg}C、解像度は19,200ピクセルである。 これは、熱画像技術の進歩、アルゴリズム開発の支援、異なるパレットにわたる顔認識のためのベンチマークのための貴重なリソースとして機能する。 さらに、顔の動き認識に寄与し、コンピュータビジョン、心理学、神経科学における学際的なコラボレーションを促進する。 このデータセットは、セキュリティ、ヘルスケア、人間とコンピュータのインタラクションに応用して、サーマルフェイスの検出と認識の研究における透明性を促進する。

This dataset includes 6823 thermal images captured using a UNI-T UTi165A camera for face detection, recognition, and emotion analysis. It consists of 2485 facial recognition images depicting emotions (happy, sad, angry, natural, surprised), 2054 images for face recognition, and 2284 images for face detection. The dataset covers various conditions, color palettes, shooting angles, and zoom levels, with a temperature range of -10{\deg}C to 400{\deg}C and a resolution of 19,200 pixels. It serves as a valuable resource for advancing thermal imaging technology, aiding in algorithm development, and benchmarking for facial recognition across different palettes. Additionally, it contributes to facial motion recognition, fostering interdisciplinary collaboration in computer vision, psychology, and neuroscience. The dataset promotes transparency in thermal face detection and recognition research, with applications in security, healthcare, and human-computer interaction.
翻訳日:2024-07-22 13:38:25 公開日:2024-05-28
# Interpret3C: 個別の特徴選択による解釈可能な学生クラスタリング

Interpret3C: Interpretable Student Clustering Through Individualized Feature Selection ( http://arxiv.org/abs/2407.11979v1 )

ライセンス: Link先を確認
Isadora Salles, Paola Mejia-Domenzain, Vinitra Swamy, Julian Blackwell, Tanja Käser, (参考訳) 教育におけるクラスタリング、特にMOOCのような大規模オンライン環境でのクラスタリングは、多様な学生のニーズを理解し、適応するために不可欠である。 しかし、クラスタリングの有効性は、その解釈可能性に依存するため、高次元データでは困難になる。 既存のクラスタリングアプローチは、機能の重要性における個々の違いを無視し、均質化された機能セットに依存していることが多い。 このギャップに対処するために,解釈可能なニューラルネットワーク(NN)を教師なし学習コンテキストに組み込んだ,新たなクラスタリングパイプラインであるInterpret3C(Interpretable Conditional Computation Clustering)を導入する。 本手法は, NNにおける適応ゲーティングを利用して, 生徒ごとの特徴を抽出する。 次に、生徒毎の最も関連性の高い機能を使用してクラスタリングを行い、クラスタの関連性と解釈可能性を高める。 我々はInterpret3Cを用いて,5,000人以上の学生を抱えるMOOCにおいて,個々の特徴の重要性を考慮した行動クラスタの分析を行った。 この研究は、スケーラブルでロバストなクラスタリング手法と、個々の学生の違いを尊重し、高次元データの解釈可能性を改善する教育ケーススタディを提供することによって、この分野に貢献する。

Clustering in education, particularly in large-scale online environments like MOOCs, is essential for understanding and adapting to diverse student needs. However, the effectiveness of clustering depends on its interpretability, which becomes challenging with high-dimensional data. Existing clustering approaches often neglect individual differences in feature importance and rely on a homogenized feature set. Addressing this gap, we introduce Interpret3C (Interpretable Conditional Computation Clustering), a novel clustering pipeline that incorporates interpretable neural networks (NNs) in an unsupervised learning context. This method leverages adaptive gating in NNs to select features for each student. Then, clustering is performed using the most relevant features per student, enhancing clusters' relevance and interpretability. We use Interpret3C to analyze the behavioral clusters considering individual feature importances in a MOOC with over 5,000 students. This research contributes to the field by offering a scalable, robust clustering methodology and an educational case study that respects individual student differences and improves interpretability for high-dimensional data.
翻訳日:2024-07-22 11:50:18 公開日:2024-05-28
# 家庭レベルの貧困度測定におけるブースティングアルゴリズムの利用:フィリピンにおける世帯重質質の予測と分類のための機械学習アプローチ

Use of Boosting Algorithms in Household-Level Poverty Measurement: A Machine Learning Approach to Predict and Classify Household Wealth Quintiles in the Philippines ( http://arxiv.org/abs/2407.13061v1 )

ライセンス: Link先を確認
Erika Lynet Salvador, (参考訳) 本研究では、アダプティブブースティング(AdaBoost)、キャットブースティング(CatBoost)、グラディエントブースティングマシン(GBM)、ライトグラディエントブースティングマシン(LightGBM)、エクストリームグラディエントブースティング(XGBoost)の5つのアルゴリズムを用いて、フィリピンの貧困レベルを予測する機械学習モデルの有効性を評価した。 CatBoostが上位モデルとして登場し、精度、精度、リコール、F1スコアで91%、XGBoostとGBMが99%、GBMが88%で最高スコアを記録した。 さらに、これらのモデルの計算効率を調べ、実世界のアプリケーションに不可欠なトレーニング時間、テスト速度、モデルサイズ要因のバランスを分析する。 訓練期間は長いものの、CatBoostは高い試験効率を示した。 これらの結果から,機械学習は貧困予測や政策介入の進展に有効であることが示唆された。 今後の研究は、これらのモデルの予測精度とポリシーユーティリティを高めるために、より広範な多様なデータを統合することに焦点を当てるべきである。

This study assessed the effectiveness of machine learning models in predicting poverty levels in the Philippines using five boosting algorithms: Adaptive Boosting (AdaBoost), CatBoosting (CatBoost), Gradient Boosting Machine (GBM), Light Gradient Boosting Machine (LightGBM), and Extreme Gradient Boosting (XGBoost). CatBoost emerged as the superior model and achieved the highest scores across accuracy, precision, recall, and F1-score at 91 percent, while XGBoost and GBM followed closely with 89 percent and 88 percent respectively. Additionally, the research examined the computational efficiency of these models to analyze the balance between training time, testing speed, and model size factors crucial for real-world applications. Despite its longer training duration, CatBoost demonstrated high testing efficiency. These results indicate that machine learning can aid in poverty prediction and in the development of targeted policy interventions. Future studies should focus on incorporating a wider variety of data to enhance the predictive accuracy and policy utility of these models.
翻訳日:2024-07-22 08:18:00 公開日:2024-05-28
# 個人に対するアービタリティのコスト--モデル多重性の法的・技術的課題の検討

The Cost of Arbitrariness for Individuals: Examining the Legal and Technical Challenges of Model Multiplicity ( http://arxiv.org/abs/2407.13070v1 )

ライセンス: Link先を確認
Prakhar Ganesh, Ihsan Ibrahim Daldaban, Ignacio Cofone, Golnoosh Farnadi, (参考訳) モデル多重性(Multipleity)とは、異なる基礎となる学習機能にもかかわらず、複数のモデルが類似した性能を達成する現象であり、モデル選択において任意性を導入する現象である。 この仲裁性は期待に反するように見えるかもしれないが、個人への影響は深刻である。 本稿では, 最終予測を超える仲裁性の効果, 保護グループに属する個人に対する仲裁性の違い, および, 様々な文脈にまたがってモノポリーを生成する単一アルゴリズムシステムの仲裁性に関わる課題など, 多重性から生じる様々な個人的関心事について検討する。 これは、これらの懸念に関する実証的な調査と、法的な観点からの包括的な分析の両方を提供し、カナダの反差別法においてこれらの問題がどのように認識されているかに対処する。 両分野の今後の研究方向性を明らかにするとともに,法的な要件を満たすためのモデル乗法と,現行法とモデル選択における任意性含意の法的ギャップの両面での技術的課題の議論を締めくくる。

Model multiplicity, the phenomenon where multiple models achieve similar performance despite different underlying learned functions, introduces arbitrariness in model selection. While this arbitrariness may seem inconsequential in expectation, its impact on individuals can be severe. This paper explores various individual concerns stemming from multiplicity, including the effects of arbitrariness beyond final predictions, disparate arbitrariness for individuals belonging to protected groups, and the challenges associated with the arbitrariness of a single algorithmic system creating a monopoly across various contexts. It provides both an empirical examination of these concerns and a comprehensive analysis from the legal standpoint, addressing how these issues are perceived in the anti-discrimination law in Canada. We conclude the discussion with technical challenges in the current landscape of model multiplicity to meet legal requirements and the legal gap between current law and the implications of arbitrariness in model selection, highlighting relevant future research directions for both disciplines.
翻訳日:2024-07-22 08:18:00 公開日:2024-05-28
# 先端メディア分析のためのメディアインサイトエンジン:ペットの健康診断のためのコンピュータビジョンイノベーションを事例として

Media Insights Engine for Advanced Media Analysis: A Case Study of a Computer Vision Innovation for Pet Health Diagnosis ( http://arxiv.org/abs/2407.13679v1 )

ライセンス: Link先を確認
Anjanava Biswas, (参考訳) 本稿では,大手ペット小売業者であるPetcoが,Media Insights Engineを用いてペットの健康分析プロセスを革新し,初診までの時間を短縮したケーススタディを提案する。 同社はこのフレームワークを利用して、ペットのビデオや画像の健康上の問題を特定し、事前に構築された獣医学診断でAIの結果を検証するなど、高度なコンピュータビジョンタスクのためのカスタムアプリケーションを構築した。 Media Insights Engineはモジュラーで拡張可能なソリューションを提供しており、Petcoはメディアワークロードのための機械学習アプリケーションを素早く構築できる。 このフレームワークを利用することで、Petcoはプロジェクトの開発を加速し、ペットの健康分析の効率を改善し、最終的にペットの健康問題の最初の診断までの時間を短縮することができた。 本稿では,メディアを用いたペットの健康分析の課題,メディアインサイトエンジンのメリット,およびこのフレームワークを用いたPetcoのカスタムアプリケーションのアーキテクチャについて論じる。

This paper presents a case study of how Petco, a leading pet retailer, innovated their pet health analysis processes using the Media Insights Engine to reduce the time to first diagnosis. The company leveraged this framework to build custom applications for advanced computer vision tasks, such as identifying potential health issues in pet videos and images, and validating AI outcomes with pre-built veterinary diagnoses. The Media Insights Engine provides a modular and extensible solution that enabled Petco to quickly build machine learning applications for media workloads. By utilizing this framework, Petco was able to accelerate their project development, improve the efficiency of their pet health analysis, and ultimately reduce the time to first diagnosis for pet health issues. This paper discusses the challenges of pet health analysis using media, the benefits of using the Media Insights Engine, and the architecture of Petco's custom applications built using this framework.
翻訳日:2024-07-22 08:07:30 公開日:2024-05-28
# スペイン語とLLMベンチマーク:MMLUは翻訳で失われたか?

Spanish and LLM Benchmarks: is MMLU Lost in Translation? ( http://arxiv.org/abs/2406.17789v1 )

ライセンス: Link先を確認
Irene Plaza, Nina Melero, Cristina del Pozo, Javier Conde, Pedro Reviriego, Marina Mayor-Rocher, María Grandury, (参考訳) 大規模言語モデル(LLM)の評価は継続的な改善プロセスにおいて重要な要素であり、様々なタスクやトピックにおけるLLMの性能を評価するために多くのベンチマークが開発されている。 LLMが世界中で採用されるにつれて、英語以外の言語での評価がますます重要になっている。 しかし、ほとんどのLLMベンチマークは自動化ツールを使用して単純に翻訳され、ターゲット言語で実行される。 これは、その言語におけるLLMのパフォーマンスだけでなく、翻訳の質にも依存することを意味する。 本稿では,MMLU(Massive Multitask Language Understanding)ベンチマークについて考察する。 ベンチマークの選択されたカテゴリは、Azure TranslatorとChatGPT4を使用してスペイン語に変換され、ChatGPT4上で動作する。 次に、結果は、スペイン語と英語で異なる回答を生成するテスト項目を特定するために処理される。 それらは手動で分析され、自動翻訳が変更を引き起こしたかどうかが分かる。 その結果, フェールした項目のかなりの部分は, ベンチマークの翻訳の誤りに起因することがわかった。 これらの結果は、少なくとも項目の翻訳を改訂し、好ましくは、専門家が対象言語にテストを適用することで、英語以外の言語でのベンチマークを改善することが強く主張される。

The evaluation of Large Language Models (LLMs) is a key element in their continuous improvement process and many benchmarks have been developed to assess the performance of LLMs in different tasks and topics. As LLMs become adopted worldwide, evaluating them in languages other than English is increasingly important. However, most LLM benchmarks are simply translated using an automated tool and then run in the target language. This means that the results depend not only on the LLM performance in that language but also on the quality of the translation. In this paper, we consider the case of the well-known Massive Multitask Language Understanding (MMLU) benchmark. Selected categories of the benchmark are translated into Spanish using Azure Translator and ChatGPT4 and run on ChatGPT4. Next, the results are processed to identify the test items that produce different answers in Spanish and English. Those are then analyzed manually to understand if the automatic translation caused the change. The results show that a significant fraction of the failing items can be attributed to mistakes in the translation of the benchmark. These results make a strong case for improving benchmarks in languages other than English by at least revising the translations of the items and preferably by adapting the tests to the target language by experts.
翻訳日:2024-07-01 06:21:45 公開日:2024-05-28
# Mashee at SemEval-2024 Task 8: The Impact of Samples Quality on the Performance of In-Context Learning for Machine Text Classification (英語)

Mashee at SemEval-2024 Task 8: The Impact of Samples Quality on the Performance of In-Context Learning for Machine Text Classification ( http://arxiv.org/abs/2406.17790v1 )

ライセンス: Link先を確認
Areeg Fahad Rasheed, M. Zarkoosh, (参考訳) 数ショットの学習の中で、ICL(In-context Learning)は、少量のデータや、大規模なデータセットのトレーニングモデルが禁止されているリソース制約のある環境でのモデルパフォーマンスを改善するために、コンテキスト情報を活用する潜在的な方法となっている。 しかし,数ショットで選択した試料の品質はICLの有用性を著しく制限した。 本研究の主な目的は,数ショットの学習シナリオにおいて,高品質なサンプルを選択することで,文脈内学習の評価指標の性能を向上させることである。 我々は,高品質試料を同定するために2乗検定を用い,低品質試料を用いて得られた試料と比較した。 これらの結果から, 高品質な試料の利用により, 評価指標のすべてに対して, 性能が向上することが示唆された。

Within few-shot learning, in-context learning (ICL) has become a potential method for leveraging contextual information to improve model performance on small amounts of data or in resource-constrained environments where training models on large datasets is prohibitive. However, the quality of the selected sample in a few shots severely limits the usefulness of ICL. The primary goal of this paper is to enhance the performance of evaluation metrics for in-context learning by selecting high-quality samples in few-shot learning scenarios. We employ the chi-square test to identify high-quality samples and compare the results with those obtained using low-quality samples. Our findings demonstrate that utilizing high-quality samples leads to improved performance with respect to all evaluated metrics.
翻訳日:2024-07-01 06:21:45 公開日:2024-05-28
# SelMatch: 選択に基づく初期化とトラジェクトリマッチングによる部分更新によるデータセット蒸留の効果的スケールアップ

SelMatch: Effectively Scaling Up Dataset Distillation via Selection-Based Initialization and Partial Updates by Trajectory Matching ( http://arxiv.org/abs/2406.18561v1 )

ライセンス: Link先を確認
Yongmin Lee, Hye Won Chung, (参考訳) データセット蒸留は、大規模なデータセットからクラス毎の少数の画像(IPC)を合成し、パフォーマンス損失を最小限に抑えた完全なデータセットトレーニングを近似することを目的としている。 非常に小さなIPC範囲では有効であるが、多くの蒸留法はIPCの増加に伴い、ランダムなサンプル選択が劣るほど効果が低下する。 各種ICCスケールのトラジェクトリマッチングに基づく蒸留法について検討した結果,ICCが増加しても,より硬い試料の複雑で稀な特徴を合成データセットに組み込むことに苦慮していることが明らかとなった。 そこで本研究では,IPCで効果的にスケールする新しい蒸留法であるSelMatchを紹介する。 SelMatchは、選択ベースの初期化とトラジェクトリマッチングによる部分的な更新を使用して、PCスケールに合わせて、合成データセットの望ましい困難レベルを管理する。 CIFAR-10/100とTinyImageNetでテストすると、SelMatchは5%から30%のサブセット比で、選択のみおよび蒸留のみの手法で、常にパフォーマンスが向上する。

Dataset distillation aims to synthesize a small number of images per class (IPC) from a large dataset to approximate full dataset training with minimal performance loss. While effective in very small IPC ranges, many distillation methods become less effective, even underperforming random sample selection, as IPC increases. Our examination of state-of-the-art trajectory-matching based distillation methods across various IPC scales reveals that these methods struggle to incorporate the complex, rare features of harder samples into the synthetic dataset even with the increased IPC, resulting in a persistent coverage gap between easy and hard test samples. Motivated by such observations, we introduce SelMatch, a novel distillation method that effectively scales with IPC. SelMatch uses selection-based initialization and partial updates through trajectory matching to manage the synthetic dataset's desired difficulty level tailored to IPC scales. When tested on CIFAR-10/100 and TinyImageNet, SelMatch consistently outperforms leading selection-only and distillation-only methods across subset ratios from 5% to 30%.
翻訳日:2024-07-01 06:00:20 公開日:2024-05-28
# 機能拡張によるSSLの改善

Views Can Be Deceiving: Improved SSL Through Feature Space Augmentation ( http://arxiv.org/abs/2406.18562v1 )

ライセンス: Link先を確認
Kimia Hamidieh, Haoran Zhang, Swami Sankaranarayanan, Marzyeh Ghassemi, (参考訳) 教師付き学習手法は、より単純な特徴を優先する帰納的バイアスを示す。 このような特徴がラベルと急激な相関がある場合、これは少数部分群における最適以下のパフォーマンスをもたらす可能性がある。 ラベルのないデータから学習する手法の普及にもかかわらず、これらの表現が予測の急激な特徴に依存している範囲は不明確である。 本研究では,視覚表現学習における自己監督学習(SSL)に対する刺激的特徴の影響について検討する。 最初に、SSLで一般的に使われている拡張は、画像空間において望ましくない不変性を引き起こすことを実証的に示し、これを簡単な例で説明します。 さらに、SSL中のデータセット再サンプリングなど、突発的な相関に対処する古典的なアプローチは、不変表現を一貫して導くものではないことを示す。 これらの知見に触発されて、我々は、プルーニングによりエンコーダの後の層を規則化することにより、事前学習中にこれらの表現からスプリアス情報を除去するLateTVGを提案する。 本手法は,SSL中にグループ情報やラベル情報を必要とせずに,複数のベンチマークのベースラインよりも優れた表現を生成する。

Supervised learning methods have been found to exhibit inductive biases favoring simpler features. When such features are spuriously correlated with the label, this can result in suboptimal performance on minority subgroups. Despite the growing popularity of methods which learn from unlabeled data, the extent to which these representations rely on spurious features for prediction is unclear. In this work, we explore the impact of spurious features on Self-Supervised Learning (SSL) for visual representation learning. We first empirically show that commonly used augmentations in SSL can cause undesired invariances in the image space, and illustrate this with a simple example. We further show that classical approaches in combating spurious correlations, such as dataset re-sampling during SSL, do not consistently lead to invariant representations. Motivated by these findings, we propose LateTVG to remove spurious information from these representations during pre-training, by regularizing later layers of the encoder via pruning. We find that our method produces representations which outperform the baselines on several benchmarks, without the need for group or label information during SSL.
翻訳日:2024-07-01 06:00:20 公開日:2024-05-28
# 光学系を用いた重力誘起絡み合いの可能性

Feasible generation of gravity-induced entanglement by using optomechanical systems ( http://arxiv.org/abs/2406.04361v1 )

ライセンス: Link先を確認
Daisuke Miki, Akira Matsumura, Kazuhiro Yamamoto, (参考訳) 本研究は,S/N=1の信号対雑音比を達成するための実験パラメータを明らかにするための,光学系による重力誘起絡み(GIE)の検出の可能性について報告する。 提案手法は,重力波観測の分野で成熟した連続測定,フィードバック制御,カルマンフィルタリングプロセスにおいて,重力相互作用を介して結合された光学鏡間のGIE生成に焦点を当てる。 我々は、運動の最小分散を推定する光学鏡の条件共分散行列の時間発展を評価するために、リカティ方程式を解いた。 その結果、GIEはオプティメカルカップリングを伴わないよく知られた時間スケールよりも高速に生成されることが示された。 高速な絡み合いの発生はカルマンフィルター法(英語版)による量子状態のスクイージング(英語版)と関連しており、これは光学系を用いて実験的にGIEを検出する利点である。

We report the feasibility of detecting the gravity-induced entanglement (GIE) with optomechanical systems, which is the first investigation that clarifies the feasible experimental parameters to achieve a signal-to-noise ratio of S/N=1. Our proposal focuses on GIE generation between optomechanical mirrors, coupled via gravitational interactions, under continuous measurement, feedback control, and Kalman filtering process, which matured in connection with the field of gravitational wave observations. We solved the Riccati equation to evaluate the time evolution of the conditional covariance matrix for optomechanical mirrors that estimated the minimum variance of the motions. The results demonstrate that GIE is generated faster than a well-known time scale without optomechanical coupling. The fast generation of entanglement is associated with quantum-state squeezing by the Kalman filtering process, which is an advantage of using optomechanical systems to experimentally detect GIE.
翻訳日:2024-06-23 14:05:12 公開日:2024-05-28
# スピン1型ウンルー・デ・ウィット検出器の研究

A study of the spin 1 Unruh-De Witt detectors ( http://arxiv.org/abs/2406.04362v1 )

ライセンス: Link先を確認
F. M. Guedes, M. S. Guimaraes, I. Roditi, S. P. Sorella, (参考訳) 相対論的スカラー量子場と相互作用するスピン1のウンルー・デ・ウィット検出器について述べる。 フィールドモードを追尾した後、Bell-CHSH不等式の不等式を調査するために、2部分石英系の密度行列を用いた。 スピン1/2$の場合とは異なり、スピン1/2$の場合、量子場の効果によって違反の大きさが小さくなる。 この効果は、ツイレルソンの境界が四重項の場合、飽和していないという事実に起因している。

A study of the spin 1 Unruh-De Witt detectors interacting with a relativistic scalar quantum field is presented. After tracing out the field modes, the resulting density matrix for a bipartite qutrit system is employed to investigate the violation of the Bell-CHSH inequality. Unlike the case of spin $1/2$, for which the effects of the quantum field result in a decreasing of the size of violation, in the case of spin $1$ both decreasing and increasing of the violation may occur. This effect is ascribed to the fact that Tsirelson's bound is not saturated in the case of qutrits.
翻訳日:2024-06-23 14:05:12 公開日:2024-05-28
# シミュレーションアニーリングを用いたTPMS設計材料の機械学習駆動最適化

Machine Learning-Driven Optimization of TPMS Architected Materials Using Simulated Annealing ( http://arxiv.org/abs/2406.05142v1 )

ライセンス: Link先を確認
Akshansh Mishra, (参考訳) 本研究は,3つの周期曲面(TPMS)構造の引張応力を機械学習とシミュレート・アニーリング(SA)により最適化する新しい手法を提案する。 本研究は, TPMSモデルの有限要素解析から得られたデータセットを用いて, 応力予測におけるランダムフォレスト, 決定木およびXGBoostモデルの性能を評価する。 対象関数はモデルの精度を高めるために検証セット上の負のR二乗値を最小化した。 SA-XGBoostモデルは他のモデルよりも優れており、R2乗値は0.96である。 対照的に、SA-Random ForestモデルではR2乗が0.89であり、SA-Decision Treeモデルでは検証スコアの変動が大きくなった。 これは、SA-XGBoostモデルがデータ内の複雑な関係を捉えるのに最も効果的であることを示している。 SAの統合は、これらの機械学習モデルのハイパーパラメータを最適化し、予測能力を向上するのに役立つ。

The research paper presents a novel approach to optimizing the tensile stress of Triply Periodic Minimal Surface (TPMS) structures through machine learning and Simulated Annealing (SA). The study evaluates the performance of Random Forest, Decision Tree, and XGBoost models in predicting tensile stress, using a dataset generated from finite element analysis of TPMS models. The objective function minimized the negative R-squared value on the validation set to enhance model accuracy. The SA-XGBoost model outperformed the others, achieving an R-squared value of 0.96. In contrast, the SA-Random Forest model achieved an R squared value of 0.89 while the SA-Decision Tree model exhibited greater fluctuations in validation scores. This demonstrates that the SA-XGBoost model is most effective in capturing the complex relationships within the data. The integration of SA helps in optimizing the hyperparameters of these machine learning models, thereby enhancing their predictive capabilities.
翻訳日:2024-06-23 13:55:28 公開日:2024-05-28
# カーネル密度推定を用いた機械学習モデルの領域決定:材料特性予測への応用

Determining Domain of Machine Learning Models using Kernel Density Estimates: Applications in Materials Property Prediction ( http://arxiv.org/abs/2406.05143v1 )

ライセンス: Link先を確認
Lane E. Schultz, Yiqi Wang, Ryan Jacobs, Dane Morgan, (参考訳) 機械学習モデルの適用可能性のドメインに関する知識は、正確で信頼性の高いモデル予測を保証するために不可欠である。 本研究では,モデル領域の評価を行う新しい手法を開発し,複数のモデルタイプおよび材料特性データセットに適用した場合に,ドメイン内とドメイン外との正確な識別が可能であることを示す。 提案手法は,カーネル密度推定を用いて特徴空間におけるテスト点とトレーニング点の距離を評価し,この距離が領域決定に有効なツールであることを示す。 確立された化学知識に基づく無関係と判断された化学物質群は,本測定値と有意な相違が認められた。 また, 相違度の高い尺度は, モデル性能の低さ(残留度が高い)とモデル不確実性の低さ(信頼できない不確実性推定)に関連していることを示した。 機械学習モデルの新たな予測がドメイン内なのかドメイン外なのかを識別するために、研究者が許容される相違しきい値を確立するための自動化ツールが提供される。

Knowledge of the domain of applicability of a machine learning model is essential to ensuring accurate and reliable model predictions. In this work, we develop a new approach of assessing model domain and demonstrate that our approach provides accurate and meaningful designation of in-domain versus out-of-domain when applied across multiple model types and material property data sets. Our approach assesses the distance between a test and training data point in feature space by using kernel density estimation and shows that this distance provides an effective tool for domain determination. We show that chemical groups considered unrelated based on established chemical knowledge exhibit significant dissimilarities by our measure. We also show that high measures of dissimilarity are associated with poor model performance (i.e., high residual magnitudes) and poor estimates of model uncertainty (i.e., unreliable uncertainty estimation). Automated tools are provided to enable researchers to establish acceptable dissimilarity thresholds to identify whether new predictions of their own machine learning models are in-domain versus out-of-domain.
翻訳日:2024-06-23 13:55:28 公開日:2024-05-28
# シャープ比の最適化:マルチアーマッドバンドにおけるリスク調整型意思決定

Optimizing Sharpe Ratio: Risk-Adjusted Decision-Making in Multi-Armed Bandits ( http://arxiv.org/abs/2406.06552v1 )

ライセンス: Link先を確認
Sabrina Khurshid, Mohammed Shahid Abdulla, Gourab Ghatak, (参考訳) シャープ比率(SR)は金融時系列の特徴付けにおいて重要なパラメータであり、変動を通じて株/ポートフォリオの報酬とボラティリティを共同で検討している。 最高の専門家であるEven-Dar et al (2006)に対して、オフラインポリシーでさえ常に後悔を経験しているため、SRを最適化するためのオンラインアルゴリズムの導出は特に困難である。 したがって、通常の SR の定義を最適化する代わりに、正規化された正方形 SR (RSSR) を最適化する。 RSSRの2つの設定、Regret Minimization(RM)とBest Arm Identification(BAI)について検討する。 そこで本研究では,UCB-RSSR と呼ばれる RM の RSSR 最大化のための新しいマルチアーム・バンディット (MAB) アルゴリズムを提案する。 RSSRの推定値に対して経路依存濃度を導出する。 このことから, UCB-RSSR の反証を導出し, 水平 n で演奏される二本腕のバンディットケースの O(log n) として進化することを示す。 また、よく知られたBAIアルゴリズム、すなわちシーケンシャル半減と逐次リジェクションの固定予算設定も検討し、SHVV、SHSR、SuRSRアルゴリズムを提案する。 提案した全てのBAIアルゴリズムの誤差確率の上限を導出する。 UCB-RSSRは、他のSR最適化バンディットアルゴリズムであるU-UCB Cassel et al(2023)よりも優れていることを示す。 また, GRA-UCB および MVTS アルゴリズムから得られた他のベンチマークに対して有効性を確立する。 さらに、複数の異なる設定に対して提案したBAIアルゴリズムの性能を実証する。 我々の研究は、提案アルゴリズムがリスク対応ポートフォリオ管理問題に広範な応用を見出すことを強調している。 その結果,提案アルゴリズムはリスク対応ポートフォリオ管理問題に広範な応用が期待できることがわかった。

Sharpe Ratio (SR) is a critical parameter in characterizing financial time series as it jointly considers the reward and the volatility of any stock/portfolio through its variance. Deriving online algorithms for optimizing the SR is particularly challenging since even offline policies experience constant regret with respect to the best expert Even-Dar et al (2006). Thus, instead of optimizing the usual definition of SR, we optimize regularized square SR (RSSR). We consider two settings for the RSSR, Regret Minimization (RM) and Best Arm Identification (BAI). In this regard, we propose a novel multi-armed bandit (MAB) algorithm for RM called UCB-RSSR for RSSR maximization. We derive a path-dependent concentration bound for the estimate of the RSSR. Based on that, we derive the regret guarantees of UCB-RSSR and show that it evolves as O(log n) for the two-armed bandit case played for a horizon n. We also consider a fixed budget setting for well-known BAI algorithms, i.e., sequential halving and successive rejects, and propose SHVV, SHSR, and SuRSR algorithms. We derive the upper bound for the error probability of all proposed BAI algorithms. We demonstrate that UCB-RSSR outperforms the only other known SR optimizing bandit algorithm, U-UCB Cassel et al (2023). We also establish its efficacy with respect to other benchmarks derived from the GRA-UCB and MVTS algorithms. We further demonstrate the performance of proposed BAI algorithms for multiple different setups. Our research highlights that our proposed algorithms will find extensive applications in risk-aware portfolio management problems. Consequently, our research highlights that our proposed algorithms will find extensive applications in risk-aware portfolio management problems.
翻訳日:2024-06-23 13:55:28 公開日:2024-05-28
# マルチドメインテキスト分類のための確率的逆ネットワーク

Stochastic Adversarial Networks for Multi-Domain Text Classification ( http://arxiv.org/abs/2406.00044v1 )

ライセンス: Link先を確認
Xu Wang, Yuan Wu, (参考訳) 敵対的訓練は多領域テキスト分類(MDTC)の進展に役立っている。 MDTC法は伝統的に、ドメイン不変知識のための共有特徴抽出器と、ドメイン固有知識のための個別特徴抽出器を備えた共有プライベートパラダイムを用いている。 最先端の結果を得たにもかかわらず、これらの手法は、新しいドメインの連続的な追加によるモデルパラメータのエスカレーションに対応している。 この課題に対処するために、従来の重みベクトルとは対照的に、ドメイン固有の特徴抽出器のパラメータを多変量ガウス分布として革新的にモデル化するSAN(Stochastic Adversarial Network)を導入する。 この設計により、モデルパラメータを大幅に増加させることなく、多数のドメイン固有の特徴抽出器を生成でき、モデルのサイズは単一のドメイン固有の抽出器と同等に維持できる。 さらに, ドメインラベルのスムース化とロバストな擬似ラベル正規化を併用して, 対人訓練の安定性と特徴識別性を向上する。 2つの主要なMDTCベンチマークで評価したSANの性能は、現在の最先端手法に対する競争優位性を示している。 コードはhttps://github.com/wangxu0820/SANで公開されている。

Adversarial training has been instrumental in advancing multi-domain text classification (MDTC). Traditionally, MDTC methods employ a shared-private paradigm, with a shared feature extractor for domain-invariant knowledge and individual private feature extractors for domain-specific knowledge. Despite achieving state-of-the-art results, these methods grapple with the escalating model parameters due to the continuous addition of new domains. To address this challenge, we introduce the Stochastic Adversarial Network (SAN), which innovatively models the parameters of the domain-specific feature extractor as a multivariate Gaussian distribution, as opposed to a traditional weight vector. This design allows for the generation of numerous domain-specific feature extractors without a substantial increase in model parameters, maintaining the model's size on par with that of a single domain-specific extractor. Furthermore, our approach integrates domain label smoothing and robust pseudo-label regularization to fortify the stability of adversarial training and to refine feature discriminability, respectively. The performance of our SAN, evaluated on two leading MDTC benchmarks, demonstrates its competitive edge against the current state-of-the-art methodologies. The code is available at https://github.com/wangxu0820/SAN.
翻訳日:2024-06-09 15:59:42 公開日:2024-05-28
# 大規模言語モデルのパーソナライズされたステアリング:双方向選好最適化によるヴァーサタイルステアリングベクトル

Personalized Steering of Large Language Models: Versatile Steering Vectors Through Bi-directional Preference Optimization ( http://arxiv.org/abs/2406.00045v1 )

ライセンス: Link先を確認
Yuanpu Cao, Tianrong Zhang, Bochuan Cao, Ziyi Yin, Lu Lin, Fenglong Ma, Jinghui Chen, (参考訳) 研究者は、Large Language Models(LLM)の振る舞いを制御し、様々なアプリケーションに適したパーソナライズされたLLMを構築するためのアプローチを研究してきた。 微調整は直接的な解決策であるように見えるが、かなりの計算資源が必要であり、元のLLMの実用性に大きな影響を及ぼす可能性がある。 最近の取り組みはより軽量な戦略を導入し、LLMのトランスフォーマーアーキテクチャの特定の層内でのアクティベーションを調整することで、モデル出力を望ましい振る舞いに導く「ステアリングベクトル」の抽出に重点を置いている。 しかし、そのようなステアリングベクトルは人間の嗜好データのアクティベートから直接抽出され、特にアライメントに関連するシナリオにおいて、しばしば最適以下の結果と時折失敗につながる。 この研究は、双方向の選好最適化によってより効果的なステアリングベクトルを生み出すことができる革新的なアプローチを提案する。 提案手法は, ステアリングベクトルが人間の嗜好データペアの生成確率に直接影響し, 対象行動のより正確に表現できるように設計されている。 ステアリングベクトルの方向と大きさを慎重に調整することにより、所望の動作を様々な強度でパーソナライズした制御を可能にした。 様々なオープンエンド世代タスク、特にAIペルソナのステアリングに焦点を当てた大規模な実験が、我々のアプローチの有効性を検証した。 さらに、真理性の管理、幻覚の緩和、脱獄攻撃への対処など、重要なアライメントのシナリオを包括的に調査する。 興味深いことに,本手法はこれらのシナリオにおいて優れたステアリング効果を示すことができる。 さらに、異なるモデル/LoRA間のステアリングベクトルの転送可能性を示し、同時に複数のベクトルを適用することの相乗効果を強調した。

Researchers have been studying approaches to steer the behavior of Large Language Models (LLMs) and build personalized LLMs tailored for various applications. While fine-tuning seems to be a direct solution, it requires substantial computational resources and may significantly affect the utility of the original LLM. Recent endeavors have introduced more lightweight strategies, focusing on extracting "steering vectors" to guide the model's output toward desired behaviors by adjusting activations within specific layers of the LLM's transformer architecture. However, such steering vectors are directly extracted from the activations of human preference data and thus often lead to suboptimal results and occasional failures, especially in alignment-related scenarios. This work proposes an innovative approach that could produce more effective steering vectors through bi-directional preference optimization. Our method is designed to allow steering vectors to directly influence the generation probability of contrastive human preference data pairs, thereby offering a more precise representation of the target behavior. By carefully adjusting the direction and magnitude of the steering vector, we enabled personalized control over the desired behavior across a spectrum of intensities. Extensive experimentation across various open-ended generation tasks, particularly focusing on steering AI personas, has validated the efficacy of our approach. Moreover, we comprehensively investigate critical alignment-concerning scenarios, such as managing truthfulness, mitigating hallucination, and addressing jailbreaking attacks. Remarkably, our method can still demonstrate outstanding steering effectiveness across these scenarios. Furthermore, we showcase the transferability of our steering vectors across different models/LoRAs and highlight the synergistic benefits of applying multiple vectors simultaneously.
翻訳日:2024-06-09 15:59:42 公開日:2024-05-28
# 一般化可能な目標認識フェアネスによるヘイトスピーチ検出

Hate Speech Detection with Generalizable Target-aware Fairness ( http://arxiv.org/abs/2406.00046v1 )

ライセンス: Link先を確認
Tong Chen, Danny Wang, Xurong Liang, Marten Risius, Gianluca Demartini, Hongzhi Yin, (参考訳) ソーシャルメディアプラットフォームの普及による副作用に対抗するため、ヘイトスピーチ検出(HSD)は、早期に有害なオンライン投稿の拡散を阻止する重要な役割を担っている。 しかし、ソーシャルメディア上で広く普及している話題コミュニティを考えると、訓練されたHSD分類器は特定の対象グループ(例えば、女性や黒人)に偏りやすくなり、偽陽性/陰性の結果が、コンテンツモデレーション機構の公正性に対する公衆の信頼を著しく損なうことになり、最終的にはオンライン社会の多様性を損なうことになる。 既存のフェアネスを意識したHSD法は、対象とするグループ間でのいくつかの相違を緩和することができるが、それらは主に、既知の、固定されたと思われるターゲットの狭い選択に特化している。 これにより、新たなターゲットグループが常に時間とともに出現する現実世界のユースケースへの一般化が必然的に防止される。 この欠陥に対処するために、我々は、推論中に多様で見えざるターゲットを含む各ポストを適切に分類する新しい方法であるGeneralizable target-aware Fairness (GetFair)を提案する。 ターゲット関連の機能に対するHSD分類器の急激な依存を取り除くため、GetFairは、フィルタされたポスト埋め込みからターゲットグループを回復する識別器を欺くために、対向パイプラインで一連のフィルタ関数を訓練する。 拡張性と一般化性を維持するため、ターゲット間のセマンティック親和性によって正規化されるハイパーネットワークを用いて、全てのフィルタ関数を革新的にパラメータ化する。 ターゲットの事前訓練された単語を入力として埋め込み、ハイパーネットワークは専用のフィルタパラメータを格納することなく、各ターゲット固有のフィルタがオンザフライで使用する重みを生成する。 最後に、2つのHSDデータセットの比較実験では、サンプル外のターゲットでGetFairのパフォーマンスが有利であることが示されている。

To counter the side effect brought by the proliferation of social media platforms, hate speech detection (HSD) plays a vital role in halting the dissemination of toxic online posts at an early stage. However, given the ubiquitous topical communities on social media, a trained HSD classifier easily becomes biased towards specific targeted groups (e.g., female and black people), where a high rate of false positive/negative results can significantly impair public trust in the fairness of content moderation mechanisms, and eventually harm the diversity of online society. Although existing fairness-aware HSD methods can smooth out some discrepancies across targeted groups, they are mostly specific to a narrow selection of targets that are assumed to be known and fixed. This inevitably prevents those methods from generalizing to real-world use cases where new targeted groups constantly emerge over time. To tackle this defect, we propose Generalizable target-aware Fairness (GetFair), a new method for fairly classifying each post that contains diverse and even unseen targets during inference. To remove the HSD classifier's spurious dependence on target-related features, GetFair trains a series of filter functions in an adversarial pipeline, so as to deceive the discriminator that recovers the targeted group from filtered post embeddings. To maintain scalability and generalizability, we innovatively parameterize all filter functions via a hypernetwork that is regularized by the semantic affinity among targets. Taking a target's pretrained word embedding as input, the hypernetwork generates the weights used by each target-specific filter on-the-fly without storing dedicated filter parameters. Finally, comparative experiments on two HSD datasets have shown advantageous performance of GetFair on out-of-sample targets.
翻訳日:2024-06-09 15:59:42 公開日:2024-05-28
# シュロディンガー方程式に対するフローベース解の効率的な正規化のための理論的枠組み

A Theoretical Framework for an Efficient Normalizing Flow-Based Solution to the Schrodinger Equation ( http://arxiv.org/abs/2406.00047v1 )

ライセンス: Link先を確認
Daniel Freedman, Eyal Rozenberg, Alex Bronstein, (参考訳) 量子力学における中心的な問題は、分子や物質に対する電子シュロディンガー方程式を解くことである。 この問題に対する変分モンテカルロのアプローチはサンプリングによって特定の変分対象を近似し、アンザッツとして知られるパラメータ化された波動関数の族よりもこの近似対象を最適化する。 近年、ニューラルネットワークがアンザッツとして使われ、成功している。 しかし、そのような波動関数からのサンプリングにはマルコフ・チェイン・モンテカルロのアプローチが必要であり、これは本質的に非効率である。 そこで本研究では,アンザッツによる解法を提案する。アンザッツは安価で,必要な量子力学的性質を満足する。 以下の2つの必須成分を用いた正規化フローが我々の要求を満たすことを証明している。 a) 決定的点過程から構築された基礎分布 b) 置換群の特定の部分群に同値なフロー層。 次に、必要等式を満たす連続正規化フローと離散正規化フローの両方を構築する方法を示す。 さらに、波動関数の非滑らかな性質(尖点)を捉える方法や、フレームワークが複数の分子をまたいだ誘導を提供するためにどのように一般化されるかを示す。 結果として生じる理論的枠組みは電子シュロディンガー方程式を解くための効率的なアプローチを必要とする。

A central problem in quantum mechanics involves solving the Electronic Schrodinger Equation for a molecule or material. The Variational Monte Carlo approach to this problem approximates a particular variational objective via sampling, and then optimizes this approximated objective over a chosen parameterized family of wavefunctions, known as the ansatz. Recently neural networks have been used as the ansatz, with accompanying success. However, sampling from such wavefunctions has required the use of a Markov Chain Monte Carlo approach, which is inherently inefficient. In this work, we propose a solution to this problem via an ansatz which is cheap to sample from, yet satisfies the requisite quantum mechanical properties. We prove that a normalizing flow using the following two essential ingredients satisfies our requirements: (a) a base distribution which is constructed from Determinantal Point Processes; (b) flow layers which are equivariant to a particular subgroup of the permutation group. We then show how to construct both continuous and discrete normalizing flows which satisfy the requisite equivariance. We further demonstrate the manner in which the non-smooth nature ("cusps") of the wavefunction may be captured, and how the framework may be generalized to provide induction across multiple molecules. The resulting theoretical framework entails an efficient approach to solving the Electronic Schrodinger Equation.
翻訳日:2024-06-09 15:59:42 公開日:2024-05-28
# 深層ニューラルネットワークによる言語構造獲得の理論

Towards a theory of how the structure of language is acquired by deep neural networks ( http://arxiv.org/abs/2406.00048v1 )

ライセンス: Link先を確認
Francesco Cagnetta, Matthieu Wyart, (参考訳) 言語の構造を学ぶのにどのくらいのデータが必要か? 本研究では,確率論的文脈自由文法(PCFG)を用いて生成した合成データセットについて検討する。 モデルを用いてトークンとトークンの相関関係を解析的に決定し,文法の隠れ変数を表現できることを示す。 さらに、有限トレーニングセットは、相関の分解を、トレーニングセットのサイズが大きくなる有効範囲に制限する。 結果として、多くの例で訓練された言語モデルは、文法の構造をより深く表現することができるため、問題の高次元性にもかかわらず、優れた性能を達成することができる。 トレーニングセットのサイズと効果的な相関範囲の関係は、我々の合成データセットを超えていると推測する。 特に,本予想では,学習セットサイズによるテスト損失行動のスケーリング法則がコンテキストウィンドウの長さに依存するのかを予測し,シェイクスピアの戯曲からの行の収集を実証的に確認する。

How much data is required to learn the structure of a language via next-token prediction? We study this question for synthetic datasets generated via a Probabilistic Context-Free Grammar (PCFG) -- a hierarchical generative model that captures the tree-like structure of natural languages. We determine token-token correlations analytically in our model and show that they can be used to build a representation of the grammar's hidden variables, the longer the range the deeper the variable. In addition, a finite training set limits the resolution of correlations to an effective range, whose size grows with that of the training set. As a result, a Language Model trained with increasingly many examples can build a deeper representation of the grammar's structure, thus reaching good performance despite the high dimensionality of the problem. We conjecture that the relationship between training set size and effective range of correlations holds beyond our synthetic datasets. In particular, our conjecture predicts how the scaling law for the test loss behaviour with training set size depends on the length of the context window, which we confirm empirically for a collection of lines from Shakespeare's plays.
翻訳日:2024-06-09 15:59:42 公開日:2024-05-28
# QUEST: 機械翻訳のための品質に配慮したメトロポリス・ハスティング

QUEST: Quality-Aware Metropolis-Hastings Sampling for Machine Translation ( http://arxiv.org/abs/2406.00049v1 )

ライセンス: Link先を確認
Gonçalo R. A. Faria, Sweta Agrawal, António Farinhas, Ricardo Rei, José G. C. de Souza, André F. T. Martins, (参考訳) 機械翻訳(MT)における重要な課題は、高品質で多様な翻訳を生成することである。 MTモデルから推定される推定推定値は,翻訳品質と相関が低いことを示す。 対照的に、品質評価指標(COMETやBLEURTなど)は、人間の判断と高い相関を示し、リランカーとしての使用(品質認識やベイズリスクの最小化など)を動機付けている。 しかし、高い推定品質の単一翻訳に依存すると、「メートル法をゲームする」可能性が高まる。 本稿では,高品質で多様な翻訳の集合をサンプリングする問題に対処する。 ギブス分布のエネルギー関数として利用することで、ノイズ品質推定の過度な信頼を回避するための簡便で効果的な方法を提供する。 分布のモードを探す代わりに、簡単なマルコフ連鎖モンテカルロアプローチであるメトロポリス・ハスティングスアルゴリズムを用いて高密度領域から複数のサンプルを生成する。 その結果,提案手法は複数の言語対 (英:$\leftrightarrow${German, Russian}) に対して,2つの強いデコーダのみのLLM (Alma-7b, Tower-7b) を持つ高品質で多様な出力をもたらすことがわかった。

An important challenge in machine translation (MT) is to generate high-quality and diverse translations. Prior work has shown that the estimated likelihood from the MT model correlates poorly with translation quality. In contrast, quality evaluation metrics (such as COMET or BLEURT) exhibit high correlations with human judgments, which has motivated their use as rerankers (such as quality-aware and minimum Bayes risk decoding). However, relying on a single translation with high estimated quality increases the chances of "gaming the metric''. In this paper, we address the problem of sampling a set of high-quality and diverse translations. We provide a simple and effective way to avoid over-reliance on noisy quality estimates by using them as the energy function of a Gibbs distribution. Instead of looking for a mode in the distribution, we generate multiple samples from high-density areas through the Metropolis-Hastings algorithm, a simple Markov chain Monte Carlo approach. The results show that our proposed method leads to high-quality and diverse outputs across multiple language pairs (English$\leftrightarrow${German, Russian}) with two strong decoder-only LLMs (Alma-7b, Tower-7b).
翻訳日:2024-06-09 15:59:42 公開日:2024-05-28
# デュアルプロセス学習:重み付けによるインコンテキスト対インウェイト戦略の利用制御

Dual Process Learning: Controlling Use of In-Context vs. In-Weights Strategies with Weight Forgetting ( http://arxiv.org/abs/2406.00053v1 )

ライセンス: Link先を確認
Suraj Anand, Michael A. Lepori, Jack Merullo, Ellie Pavlick, (参考訳) 言語モデルには、コンテキスト内学習(ICL)を実行する能力があり、コンテキストに基づいた振る舞いを柔軟に適応させることができる。 これは、データの反復的な観察から、情報がモデルパラメータに静的に符号化される、重み付き学習とは対照的である。 このようなコンテキスト内で学習する能力にもかかわらず、言語モデルは目に見えないか、まれに現れるトークンに直面したときに苦労することが知られている。 したがって、$\textbf{structureural in-context learning}$を、任意のトークン上でコンテキスト内学習を実行するモデルの能力として定義する。 理想的なモデルは、柔軟に in-weights 操作をデプロイ(エンコードされたセマンティック情報を使ってあいまいさや未知のコンテキストを堅牢に適合させるために)し、構造的 in-context 操作(新しいトークンに対応するために)を行うことができる。 実演モデルと玩具モデルの両方を用いて、単純な音声設定における構造的インコンテキストアルゴリズムについて検討する。 モデルが新しい言語に一般化するのを助けるために最近導入された手法である能動的忘れ字法は、構造的コンテキスト内学習ソリューションを採用するようモデルに強制する。 最後に、$\textbf{temporary forgetting}$を紹介します。これは、モデルがインウェイトとインコンテキストソリューションにどれだけ依存するかを制御できる、アクティブな忘れの直接的な拡張です。 重要なことは、一時的忘れることによって、$\textit{dual process strategy}$を誘導することができます。

Language models have the ability to perform in-context learning (ICL), allowing them to flexibly adapt their behavior based on context. This contrasts with in-weights learning, where information is statically encoded in model parameters from iterated observations of the data. Despite this apparent ability to learn in-context, language models are known to struggle when faced with unseen or rarely seen tokens. Hence, we study $\textbf{structural in-context learning}$, which we define as the ability of a model to execute in-context learning on arbitrary tokens -- so called because the model must generalize on the basis of e.g. sentence structure or task structure, rather than semantic content encoded in token embeddings. An ideal model would be able to do both: flexibly deploy in-weights operations (in order to robustly accommodate ambiguous or unknown contexts using encoded semantic information) and structural in-context operations (in order to accommodate novel tokens). We study structural in-context algorithms in a simple part-of-speech setting using both practical and toy models. We find that active forgetting, a technique that was recently introduced to help models generalize to new languages, forces models to adopt structural in-context learning solutions. Finally, we introduce $\textbf{temporary forgetting}$, a straightforward extension of active forgetting that enables one to control how much a model relies on in-weights vs. in-context solutions. Importantly, temporary forgetting allows us to induce a $\textit{dual process strategy}$ where in-context and in-weights solutions coexist within a single model.
翻訳日:2024-06-09 15:59:42 公開日:2024-05-28
# 文脈的類似性を用いた判断行動検索

Judgement Citation Retrieval using Contextual Similarity ( http://arxiv.org/abs/2406.01609v1 )

ライセンス: Link先を確認
Akshat Mohan Dasula, Hrushitha Tigulla, Preethika Bhukya, (参考訳) 伝統的に、法律研究の分野では、複雑な事例記述からの関連する引用の検索は、法的用語を理解する専門知識を委任する手作業やキーワードベースの検索アプリケーションを必要としている。 法的ケース記述は、法律専門家や研究者にとって重要な情報を保持し、より効率的で自動化されたアプローチを必要とする。 本稿では,自然言語処理(NLP)と機械学習技術を組み合わせて,訴訟記述の組織化と活用を促進する手法を提案する。 このアプローチは、最先端の埋め込みモデルの助けを借りて、テキスト埋め込みの作成を中心に展開される。 提案手法は,非教師付きクラスタリングと教師付き引用検索の2つの主要な目的に対処する。 提案手法は任意のデータセットに使用することができるが,米国最高裁判所(SCOTUS)データセットを用い,顕著な結果を得た。 我々の手法は90.9%という驚くべき精度を達成した。 労働集約的なプロセスを自動化することによって、法律研究においてより効率的で時間節約し、アクセスしやすくする方法を開拓し、法律専門家、学者、研究者に恩恵を与えます。

Traditionally in the domain of legal research, the retrieval of pertinent citations from intricate case descriptions has demanded manual effort and keyword-based search applications that mandate expertise in understanding legal jargon. Legal case descriptions hold pivotal information for legal professionals and researchers, necessitating more efficient and automated approaches. We propose a methodology that combines natural language processing (NLP) and machine learning techniques to enhance the organization and utilization of legal case descriptions. This approach revolves around the creation of textual embeddings with the help of state-of-art embedding models. Our methodology addresses two primary objectives: unsupervised clustering and supervised citation retrieval, both designed to automate the citation extraction process. Although the proposed methodology can be used for any dataset, we employed the Supreme Court of The United States (SCOTUS) dataset, yielding remarkable results. Our methodology achieved an impressive accuracy rate of 90.9%. By automating labor-intensive processes, we pave the way for a more efficient, time-saving, and accessible landscape in legal research, benefiting legal professionals, academics, and researchers.
翻訳日:2024-06-09 15:49:54 公開日:2024-05-28
# FinEmbedDiff:マルチモーダル埋め込みモデルを用いたベクトルサンプリングによる財務文書分類の費用効果

FinEmbedDiff: A Cost-Effective Approach of Classifying Financial Documents with Vector Sampling using Multi-modal Embedding Models ( http://arxiv.org/abs/2406.01618v1 )

ライセンス: Link先を確認
Anjanava Biswas, Wrick Talukdar, (参考訳) テキスト、表、チャート、画像を含むマルチモーダル財務文書の正確な分類は極めて重要であるが、難しい。 従来のテキストベースのアプローチは、これらの文書の複雑なマルチモーダルな性質を捉えるのに失敗することが多い。 本研究では,FinEmbedDiffを提案する。FinEmbedDiffは,事前学習したマルチモーダル埋め込みモデルを利用して財務文書を分類する,コスト効率の高いベクトルサンプリング手法である。 提案手法は,文書に対するマルチモーダル埋め込みベクトルを生成し,ベクトル類似度を用いた事前計算されたクラス埋め込みと比較する。 大規模なデータセットに基づいて評価したFinEmbedDiffは、最先端のベースラインと比較して、競合する分類精度を実現し、計算コストを大幅に削減する。 この方法は強力な一般化能力を示し、現実の金融アプリケーションにとって実用的でスケーラブルなソリューションである。

Accurate classification of multi-modal financial documents, containing text, tables, charts, and images, is crucial but challenging. Traditional text-based approaches often fail to capture the complex multi-modal nature of these documents. We propose FinEmbedDiff, a cost-effective vector sampling method that leverages pre-trained multi-modal embedding models to classify financial documents. Our approach generates multi-modal embedding vectors for documents, and compares new documents with pre-computed class embeddings using vector similarity measures. Evaluated on a large dataset, FinEmbedDiff achieves competitive classification accuracy compared to state-of-the-art baselines while significantly reducing computational costs. The method exhibits strong generalization capabilities, making it a practical and scalable solution for real-world financial applications.
翻訳日:2024-06-09 15:49:54 公開日:2024-05-28
# PPOベースの言語モデルはハック可能か?

Are PPO-ed Language Models Hackable? ( http://arxiv.org/abs/2406.02577v1 )

ライセンス: Link先を確認
Suraj Anand, David Getzen, (参考訳) 好ましくない振る舞いを取り除くために、$\textit{align}$言語モデルに多くのアルゴリズムが提案されている。 しかし、非常に大きな州空間と適切な報酬関数を作成することに関連する課題は、しばしば様々なジェイルブレイクを引き起こす。 本稿では,肯定的な感情言語生成の制御における報酬の効果を検討することを目的とする。 人間のフィードバックに基づく報酬モデルのオンライントレーニングの代わりに、静的学習された感情分類器を用いる。 また、トレーニング後にモデルの重みとアクティベーションがエンドユーザに露出する環境についても検討する。 近位政策最適化(PPO)の前後の機械的解釈可能性のレンズを用いて,事前学習したGPT-2を検証し,肯定的な感情応答を促進させた。 これらの知見を用いて、(1)PPO-edモデルを「ハック」して負の感情反応を生成し、(2)報酬関数に項を加えて「負の」重みを変えようとする。

Numerous algorithms have been proposed to $\textit{align}$ language models to remove undesirable behaviors. However, the challenges associated with a very large state space and creating a proper reward function often result in various jailbreaks. Our paper aims to examine this effect of reward in the controlled setting of positive sentiment language generation. Instead of online training of a reward model based on human feedback, we employ a statically learned sentiment classifier. We also consider a setting where our model's weights and activations are exposed to an end-user after training. We examine a pretrained GPT-2 through the lens of mechanistic interpretability before and after proximal policy optimization (PPO) has been applied to promote positive sentiment responses. Using these insights, we (1) attempt to "hack" the PPO-ed model to generate negative sentiment responses and (2) add a term to the reward function to try and alter `negative' weights.
翻訳日:2024-06-09 15:49:54 公開日:2024-05-28
# フェアLLMの不可能性

The Impossibility of Fair LLMs ( http://arxiv.org/abs/2406.03198v1 )

ライセンス: Link先を確認
Jacy Anthis, Kristian Lum, Michael Ekstrand, Avi Feller, Alexander D'Amour, Chenhao Tan, (参考訳) 公正なAIの必要性は、ChatGPTやGemini、その他の大規模言語モデル(LLM)といった汎用システムの時代において、ますます明確になっている。 しかしながら、人間とAIの相互作用の複雑さの増大とその社会的影響は、どのように公正性標準を適用することができるのかという疑問を提起している。 本稿では、機械学習研究者が、グループフェアネスやフェア表現など、フェアネスを評価するのに用いた技術的枠組みを概観し、LLMへの適用には固有の制約があることを見出した。 それぞれのフレームワークがLLMに論理的に拡張していないか、あるいはLLMにとって難解な公平性の概念を提示しているかを示す。 これらの課題に対処するため、我々は、特にユースケースにおいて公正を達成するためのより現実的な目標、すなわち、コンテキストの臨界性、LLM開発者の責任、そして、設計と評価の反復的なプロセスにおけるステークホルダーの参加の必要性に関するガイドラインを開発する。 さらに、最終的には、スケーラブルなAIアシストアライメントの形式として、フェアネスの課題に対処するために、AIシステムの汎用能力を使用する必要さえある。

The need for fair AI is increasingly clear in the era of general-purpose systems such as ChatGPT, Gemini, and other large language models (LLMs). However, the increasing complexity of human-AI interaction and its social impacts have raised questions of how fairness standards could be applied. Here, we review the technical frameworks that machine learning researchers have used to evaluate fairness, such as group fairness and fair representations, and find that their application to LLMs faces inherent limitations. We show that each framework either does not logically extend to LLMs or presents a notion of fairness that is intractable for LLMs, primarily due to the multitudes of populations affected, sensitive attributes, and use cases. To address these challenges, we develop guidelines for the more realistic goal of achieving fairness in particular use cases: the criticality of context, the responsibility of LLM developers, and the need for stakeholder participation in an iterative process of design and evaluation. Moreover, it may eventually be possible and even necessary to use the general-purpose capabilities of AI systems to address fairness challenges as a form of scalable AI-assisted alignment.
翻訳日:2024-06-09 15:49:54 公開日:2024-05-28
# ADR-BC: 対向密度重み付き回帰行動クローニング

ADR-BC: Adversarial Density Weighted Regression Behavior Cloning ( http://arxiv.org/abs/2405.20351v1 )

ライセンス: Link先を確認
Ziqi Zhang, Zifeng Zhuang, Donglin Wang, Jingzehua Xu, Miao Liu, Shuai Zhang, (参考訳) 通常、従来のImitation Learning(IL)手法は、まず報酬やQ関数を定式化し、次にこの形の関数を強化学習(RL)フレームワークで使用して経験則を最適化する。 しかし、形状の報酬/Q関数が基底真理報酬/Q関数を適切に表現していない場合、多段階のRLフレームワーク内でポリシーを更新すると累積バイアスが発生し、さらに政策学習に影響を及ぼす可能性がある。 行動クローニング(BC)を利用して、一段階の更新方法でいくつかのデモを直接模倣することでポリシーを学ぶことは累積バイアスを避けることができるが、BCは、実証されたアクションを巧みに模倣し、目に見えない状態のアクションペアに一般化する能力を制限する傾向にある。 これらの課題に対処するため,ADR-BCを提案する。 特に、ADR-BCの目的は、準最適分布を分岐しながら専門家分布と一致するような物理的意味を共有することである。 したがって、ADR-BCはより堅牢な専門家分布マッチングを実現することができる。 一方、ADR-BCは1段階の行動クローニングフレームワークであり、多段階のRLフレームワークに関連する累積バイアスを避けている。 ADR-BCの性能を検証するため,我々は広範囲な実験を行った。 具体的には、ADR-BCは、Gym-Mujocoドメインのすべてのタスクに対して、以前の最先端(SOTA)の一般化されたILベースラインであるCEILよりも10.5%改善されている。 さらに、AdroitドメインとKitchenドメインの全タスクの本当の報酬を使用して、Implicit Q Learning(IQL)よりも89.5%改善されている。 一方,ADR-BCの有効性をさらに示すため,広範囲にわたる改善を行った。

Typically, traditional Imitation Learning (IL) methods first shape a reward or Q function and then use this shaped function within a reinforcement learning (RL) framework to optimize the empirical policy. However, if the shaped reward/Q function does not adequately represent the ground truth reward/Q function, updating the policy within a multi-step RL framework may result in cumulative bias, further impacting policy learning. Although utilizing behavior cloning (BC) to learn a policy by directly mimicking a few demonstrations in a single-step updating manner can avoid cumulative bias, BC tends to greedily imitate demonstrated actions, limiting its capacity to generalize to unseen state action pairs. To address these challenges, we propose ADR-BC, which aims to enhance behavior cloning through augmented density-based action support, optimizing the policy with this augmented support. Specifically, the objective of ADR-BC shares the similar physical meanings that matching expert distribution while diverging the sub-optimal distribution. Therefore, ADR-BC can achieve more robust expert distribution matching. Meanwhile, as a one-step behavior cloning framework, ADR-BC avoids the cumulative bias associated with multi-step RL frameworks. To validate the performance of ADR-BC, we conduct extensive experiments. Specifically, ADR-BC showcases a 10.5% improvement over the previous state-of-the-art (SOTA) generalized IL baseline, CEIL, across all tasks in the Gym-Mujoco domain. Additionally, it achieves an 89.5% improvement over Implicit Q Learning (IQL) using real rewards across all tasks in the Adroit and Kitchen domains. On the other hand, we conduct extensive ablations to further demonstrate the effectiveness of ADR-BC.
翻訳日:2024-06-03 18:44:15 公開日:2024-05-28
# スペクトル匿名化の漸近的有用性

Asymptotic utility of spectral anonymization ( http://arxiv.org/abs/2405.20779v1 )

ライセンス: Link先を確認
Katariina Perkonoja, Joni Virta, (参考訳) 現代のデータランドスケープでは、複数ソースのデータ収集とサードパーティの共有が特徴であり、個人のプライバシを確保することが重要な関心事である。 様々な匿名化手法が存在するが、それらのユーティリティ保存とプライバシ保証は定量化が難しいままである。 本研究では、スペクトル匿名化(SA)アルゴリズムの有用性とプライバシを、特に漸近的なフレームワークで研究することで、このギャップに対処する。 元のデータを直接修正する従来の匿名化手法とは異なり、SAはデータをスペクトルベースで摂動させ、その後元のベースに戻す。 原版である $\mathcal{P}$-SA とともに、ランダムな置換変換を用いる2つの新しいSA変種: $\mathcal{J}$-spectral anonymization と $\mathcal{O}$-spectral anonymization を導入する。 いくつかの現実的な仮定の下では、これらのSAアルゴリズムが元のデータの第一と第二の瞬間をいかに保存するかを示す。 特に, 共分散推定における3つのSAアルゴリズムの漸近効率は, 原データと比較して正確に50%であることがわかった。 これらの漸近的結果の適用性を評価するために,有限データを用いたシミュレーション研究を行い,距離ベースのレコードリンクを用いて,これらのアルゴリズムが提供するプライバシー保護を評価する。 我々の研究は、有限サンプルユーティリティにおいて明確な優位性を示す手法は存在しないが、$\mathcal{O}$-SAは、計算複雑性が増大しているにもかかわらず、同じレコードを生成しないという例外的なプライバシー保護のために、自分自身を区別していることを明らかにしている。 逆に$\mathcal{P}$-SA は計算効率の良い代替品として現れ、平均推定における未整合効率を示す。

In the contemporary data landscape characterized by multi-source data collection and third-party sharing, ensuring individual privacy stands as a critical concern. While various anonymization methods exist, their utility preservation and privacy guarantees remain challenging to quantify. In this work, we address this gap by studying the utility and privacy of the spectral anonymization (SA) algorithm, particularly in an asymptotic framework. Unlike conventional anonymization methods that directly modify the original data, SA operates by perturbing the data in a spectral basis and subsequently reverting them to their original basis. Alongside the original version $\mathcal{P}$-SA, employing random permutation transformation, we introduce two novel SA variants: $\mathcal{J}$-spectral anonymization and $\mathcal{O}$-spectral anonymization, which employ sign-change and orthogonal matrix transformations, respectively. We show how well, under some practical assumptions, these SA algorithms preserve the first and second moments of the original data. Our results reveal, in particular, that the asymptotic efficiency of all three SA algorithms in covariance estimation is exactly 50% when compared to the original data. To assess the applicability of these asymptotic results in practice, we conduct a simulation study with finite data and also evaluate the privacy protection offered by these algorithms using distance-based record linkage. Our research reveals that while no method exhibits clear superiority in finite-sample utility, $\mathcal{O}$-SA distinguishes itself for its exceptional privacy preservation, never producing identical records, albeit with increased computational complexity. Conversely, $\mathcal{P}$-SA emerges as a computationally efficient alternative, demonstrating unmatched efficiency in mean estimation.
翻訳日:2024-06-03 18:05:14 公開日:2024-05-28
# 言語モデル透かしのブラックボックス検出

Black-Box Detection of Language Model Watermarks ( http://arxiv.org/abs/2405.20777v1 )

ライセンス: Link先を確認
Gloaguen Thibaud, Jovanović Nikola, Staab Robin, Vechev Martin, (参考訳) 透かしはLLM生成テキストを検出するための有望な方法として登場した。 LLMプロバイダがシークレットキーを付与した透かしを適用できるようにする。 最近の研究は3つの主要な透かし方式を提案しており、そのうち2つはLLM分布の保存性に焦点を当てている。 これは、LLM機能を維持するための魅力的なプロキシであると同時に、透かしの配置を隠すことで、悪意のあるアクターが特定のLCMを避けたり、その透かしを攻撃したりすることで誤用を隠すのが難しくなるという考えによっても動機づけられている。 しかし、検出可能性に関して多くの議論があるにもかかわらず、これらのスキームファミリーのうちどれかが現実的なブラックボックス設定で検出可能かどうかを以前の研究は調査していない。 ブラックボックスクエリの限られた数だけを用いて、最も人気のある3つの透かしスキーム群すべての存在を検出するための厳密な統計的テストを開発した。 提案手法の有効性を,多種多様なオープンソースモデルを用いて実験的に検証した。 以上の結果から,現在の透かし方式は従来考えられていたよりも検出可能であり,また,透かしが配備されたという事実を無視することは,プロバイダが敵から守るための有効な方法ではない可能性が示唆された。 GPT4、Claude 3、Gemini 1.0 Proといった一般的な公開APIの背後にある透かしの存在をテストするために、私たちのメソッドをさらに適用します。

Watermarking has emerged as a promising way to detect LLM-generated text. To apply a watermark an LLM provider, given a secret key, augments generations with a signal that is later detectable by any party with the same key. Recent work has proposed three main families of watermarking schemes, two of which focus on the property of preserving the LLM distribution. This is motivated by it being a tractable proxy for maintaining LLM capabilities, but also by the idea that concealing a watermark deployment makes it harder for malicious actors to hide misuse by avoiding a certain LLM or attacking its watermark. Yet, despite much discourse around detectability, no prior work has investigated if any of these scheme families are detectable in a realistic black-box setting. We tackle this for the first time, developing rigorous statistical tests to detect the presence of all three most popular watermarking scheme families using only a limited number of black-box queries. We experimentally confirm the effectiveness of our methods on a range of schemes and a diverse set of open-source models. Our findings indicate that current watermarking schemes are more detectable than previously believed, and that obscuring the fact that a watermark was deployed may not be a viable way for providers to protect against adversaries. We further apply our methods to test for watermark presence behind the most popular public APIs: GPT4, Claude 3, Gemini 1.0 Pro, finding no strong evidence of a watermark at this point in time.
翻訳日:2024-06-03 14:37:39 公開日:2024-05-28
# 安全対応型LDMに対する逆例の生成改善

Improved Generation of Adversarial Examples Against Safety-aligned LLMs ( http://arxiv.org/abs/2405.20778v1 )

ライセンス: Link先を確認
Qizhang Li, Yiwen Guo, Wangmeng Zuo, Hao Chen, (参考訳) 大きな言語モデル(LLM)が安全基準に準拠し、無害なコンテンツを生み出すことを保証するための多くの努力にもかかわらず、LLMに対するジェイルブレイク攻撃(英語版)として知られるこれらの制限を回避し、いくつかの成功は達成されている。 勾配に基づく手法を用いて生成された敵対的プロンプトは、自動的にジェイルブレイク攻撃を行う際、優れた性能を示す。 しかしながら、テキストの離散的な性質のため、LLMの入力勾配はトークンの交換によって生じる損失の程度を正確に反映するのに苦労し、ホワイトボックスの設定でさえ、安全に整合したLLMに対する攻撃の成功率は制限された。 本稿では,ブラックボックス画像分類モデルに対する攻撃として提案されたトランスファーベース攻撃に触発されたイノベーションを活用することで,この問題に対する新たな視点を探求する。 そこで我々は,これらの移動型攻撃,すなわちスキップグラディエント・メソッドと中間レベル・アタックの効果的な手法のイデオロギーを,ホワイトボックスのLDMに対して自動生成された敵例の有効性を改善するために,初めて適用した。 適切な適応により、これらのイデオロギーを勾配に基づく逆数生成プロセスに注入し、明らかな計算コストを伴わずに大幅な性能向上を達成する。 一方、利得の背後にあるメカニズムを議論することで、新たな洞察を導き、これらの手法の適切な組み合わせも開発されている。 実験の結果,AdvBench上でのLlama-2-7B-Chatモデルに対するGCGと比較して,開発した組み合わせは30%の絶対的な攻撃成功率向上を実現していることがわかった。

Despite numerous efforts to ensure large language models (LLMs) adhere to safety standards and produce harmless content, some successes have been achieved in bypassing these restrictions, known as jailbreak attacks against LLMs. Adversarial prompts generated using gradient-based methods exhibit outstanding performance in performing jailbreak attacks automatically. Nevertheless, due to the discrete nature of texts, the input gradient of LLMs struggles to precisely reflect the magnitude of loss change that results from token replacements in the prompt, leading to limited attack success rates against safety-aligned LLMs, even in the white-box setting. In this paper, we explore a new perspective on this problem, suggesting that it can be alleviated by leveraging innovations inspired in transfer-based attacks that were originally proposed for attacking black-box image classification models. For the first time, we appropriate the ideologies of effective methods among these transfer-based attacks, i.e., Skip Gradient Method and Intermediate Level Attack, for improving the effectiveness of automatically generated adversarial examples against white-box LLMs. With appropriate adaptations, we inject these ideologies into gradient-based adversarial prompt generation processes and achieve significant performance gains without introducing obvious computational cost. Meanwhile, by discussing mechanisms behind the gains, new insights are drawn, and proper combinations of these methods are also developed. Our empirical results show that the developed combination achieves >30% absolute increase in attack success rates compared with GCG for attacking the Llama-2-7B-Chat model on AdvBench.
翻訳日:2024-06-03 14:37:39 公開日:2024-05-28
# 差分的私的メカニズムの普遍的エクササイズ圧縮

Universal Exact Compression of Differentially Private Mechanisms ( http://arxiv.org/abs/2405.20782v1 )

ライセンス: Link先を確認
Yanxiao Liu, Wei-Ning Chen, Ayfer Özgür, Cheuk Ting Li, (参考訳) 差分プライバシー機構の通信コストを低減するため,PPR(Poisson private representation)と呼ばれる新しい構成を導入し,局所的な差分プライバシーを確保しつつ任意の局所的ランダム化器を圧縮・シミュレートする。 従来のシミュレーションに基づく局所微分プライバシー機構とは異なり、PPRはデータの結合分布と元の局所ランダム化器の出力を正確に保存する。 したがって、PPR圧縮されたプライバシメカニズムは、不偏性やガウシアン性など、元のプライバシメカニズムの望ましい統計特性をすべて保持している。 さらに、PPRは理論的な下界から対数的ギャップ内の圧縮サイズを達成する。 PPRを用いて、分散平均推定のための通信、精度、中央および局所的な差分プライバシーの間の新しい秩序的なトレードオフを与える。 分散平均推定実験の結果、PPRは、座標サブサンプリングされたガウス機構よりも通信、精度、中央差分プライバシーのトレードオフが良好であると同時に、局所差分プライバシーも提供することが示された。

To reduce the communication cost of differential privacy mechanisms, we introduce a novel construction, called Poisson private representation (PPR), designed to compress and simulate any local randomizer while ensuring local differential privacy. Unlike previous simulation-based local differential privacy mechanisms, PPR exactly preserves the joint distribution of the data and the output of the original local randomizer. Hence, the PPR-compressed privacy mechanism retains all desirable statistical properties of the original privacy mechanism such as unbiasedness and Gaussianity. Moreover, PPR achieves a compression size within a logarithmic gap from the theoretical lower bound. Using the PPR, we give a new order-wise trade-off between communication, accuracy, central and local differential privacy for distributed mean estimation. Experiment results on distributed mean estimation show that PPR consistently gives a better trade-off between communication, accuracy and central differential privacy compared to the coordinate subsampled Gaussian mechanism, while also providing local differential privacy.
翻訳日:2024-06-03 14:37:39 公開日:2024-05-28
# マルチモーダル・ムード・リーダー:事前学習したモデルが物体間感情認識に役立てる

Multi-modal Mood Reader: Pre-trained Model Empowers Cross-Subject Emotion Recognition ( http://arxiv.org/abs/2405.19373v1 )

ライセンス: Link先を確認
Yihang Dong, Xuhang Chen, Yanyan Shen, Michael Kwok-Po Ng, Tao Qian, Shuqiang Wang, (参考訳) 脳波(EEG)に基づく感情認識は、神経信号処理や感情計算などの分野で大きな注目を集め、多様な発展を遂げている。 しかし、個人特有の脳解剖学は、被験者間での脳波信号の非無視的な自然差をもたらし、クロスオブジェクト感情認識の課題を提起する。 最近の研究はこれらの問題に対処しようと試みているが、実用性やモデルフレームワークの統一性には限界がある。 現在の方法では、脳波信号の複雑な時空間ダイナミクスを捉えるのに苦労し、マルチモーダル情報を効果的に統合することができず、被検体間での最適化性能と限定的な一般化性をもたらす。 これらの制約を克服するために,マスク脳信号モデリングと空間的注意機構を利用したクロスオブジェクト感情認識のための,事前学習モデルに基づくマルチモーダルモードリーダを開発した。 このモデルは,大規模データセットの事前学習を通じて,脳波信号の普遍的な潜時表現を学習し,脳波データから抽出した微分エントロピー(DE)特徴を処理する。 その後、識別的特徴を統合するために多層融合層を提案し、異なる次元とモダリティにまたがる特徴の利点を最大化する。 公開データセットに関する大規模な実験は、Mood Readerのクロスオブジェクト感情認識タスクにおける優れたパフォーマンスを示し、最先端の手法よりも優れています。 さらに、このモデルは注意点から切り離され、感情関連脳領域の質的分析を提供し、神経信号処理における感情研究に有用な洞察を提供する。

Emotion recognition based on Electroencephalography (EEG) has gained significant attention and diversified development in fields such as neural signal processing and affective computing. However, the unique brain anatomy of individuals leads to non-negligible natural differences in EEG signals across subjects, posing challenges for cross-subject emotion recognition. While recent studies have attempted to address these issues, they still face limitations in practical effectiveness and model framework unity. Current methods often struggle to capture the complex spatial-temporal dynamics of EEG signals and fail to effectively integrate multimodal information, resulting in suboptimal performance and limited generalizability across subjects. To overcome these limitations, we develop a Pre-trained model based Multimodal Mood Reader for cross-subject emotion recognition that utilizes masked brain signal modeling and interlinked spatial-temporal attention mechanism. The model learns universal latent representations of EEG signals through pre-training on large scale dataset, and employs Interlinked spatial-temporal attention mechanism to process Differential Entropy(DE) features extracted from EEG data. Subsequently, a multi-level fusion layer is proposed to integrate the discriminative features, maximizing the advantages of features across different dimensions and modalities. Extensive experiments on public datasets demonstrate Mood Reader's superior performance in cross-subject emotion recognition tasks, outperforming state-of-the-art methods. Additionally, the model is dissected from attention perspective, providing qualitative analysis of emotion-related brain areas, offering valuable insights for affective research in neural signal processing.
翻訳日:2024-05-31 19:45:41 公開日:2024-05-28
# 最適マルチクラスU-キャリブレーション誤差とそれを超えるもの

Optimal Multiclass U-Calibration Error and Beyond ( http://arxiv.org/abs/2405.19374v1 )

ライセンス: Link先を確認
Haipeng Luo, Spandan Senapati, Vatsal Sharan, (参考訳) オンラインマルチクラスU-キャリブレーションの問題を考えると、予測者はU-キャリブレーション誤差が低いクラスに対して連続的な分布予測を行うことを目標としている。 Kleinberg et al (2023) は U-calibration error $O(K\sqrt{T})$ after $T$ rounds というアルゴリズムを開発した。 我々は、最適U校正誤差が$\Theta(\sqrt{KT})$ -- まず、ダスカラキスとシルグカニスのFollow-the-Perturbed-Leaderアルゴリズム(2016)がこの上限を達成し、その後、特定の適切な損失で構築された一致した下限が続くという単純な観察から始める。 また、損失関数に関する自然な仮定では、Lipschitz の固有損失に対して $\Theta(\log T)$ U-calibration error, $O(\log T)$ U-calibration error for a certain class of decomposable proper loss, U-calibration error bounds for proper loss with a low covered number などである。

We consider the problem of online multiclass U-calibration, where a forecaster aims to make sequential distributional predictions over $K$ classes with low U-calibration error, that is, low regret with respect to all bounded proper losses simultaneously. Kleinberg et al. (2023) developed an algorithm with U-calibration error $O(K\sqrt{T})$ after $T$ rounds and raised the open question of what the optimal bound is. We resolve this question by showing that the optimal U-calibration error is $\Theta(\sqrt{KT})$ -- we start with a simple observation that the Follow-the-Perturbed-Leader algorithm of Daskalakis and Syrgkanis (2016) achieves this upper bound, followed by a matching lower bound constructed with a specific proper loss (which, as a side result, also proves the optimality of the algorithm of Daskalakis and Syrgkanis (2016) in the context of online learning against an adversary with finite choices). We also strengthen our results under natural assumptions on the loss functions, including $\Theta(\log T)$ U-calibration error for Lipschitz proper losses, $O(\log T)$ U-calibration error for a certain class of decomposable proper losses, U-calibration error bounds for proper losses with a low covering number, and others.
翻訳日:2024-05-31 19:35:57 公開日:2024-05-28
# Cross-Attentive Modulationトークンを用いたリンクセット予測のグローバルな認識の改善

Improving global awareness of linkset predictions using Cross-Attentive Modulation tokens ( http://arxiv.org/abs/2405.19375v1 )

ライセンス: Link先を確認
Félix Marcoccia, Cédric Adjih, Paul Mühlethaler, (参考訳) 複数のリンク予測やグラフ生成技術のほとんどは、適切なリンク予測を形成するためにノードレベルの情報交換を利用するグラフニューラルネットワーク(GNN)に頼っている。 このようなノードレベルの相互作用は順序列としてノードを処理せず、ノードの自然な順序付けを暗示する。 グラフ問題には適しているが、予測されるリンクのグローバルなオーケストレーションの提供に苦慮しているため、パフォーマンスが損なわれる可能性がある。 典型的な問題は、大域的な接続性、固定径、過密化や過密化といった情報のボトルネック効果の回避などの高レベルな特性を確保することの難しさである。 この問題に対処するために、我々は、予測リンクのグローバル一貫性を改善するコンテキスト認識計算を可能にするために、ノードとエッジレベルの変調に使用されるクロスアテンテートユニットを導入するクロスアテンテート変調(CAM)トークンを提案する。 いくつかの置換不変アーキテクチャで実装し、私たちの仕事のメリットを証明するベンチマークをベンチマークします。

Most of multiple link prediction or graph generation techniques rely on the attention mechanism or on Graph Neural Networks (GNNs), which consist in leveraging node-level information exchanges in order to form proper link predictions. Such node-level interactions do not process nodes as an ordered sequence, which would imply some kind of natural ordering of the nodes: they are said to be permutation invariant mechanisms. They are well suited for graph problems, but struggle at providing a global orchestration of the predicted links, which can result in a loss of performance. Some typical issues can be the difficulty to ensure high-level properties such as global connectedness, fixed diameter or to avoid information bottleneck effects such as oversmoothing and oversquashing, which respectively consist in abundant smoothing in dense areas leading to a loss of information and a tendency to exclude isolated nodes from the message passing scheme, and often result in irrelevant, unbalanced link predictions. To tackle this problem, we hereby present Cross-Attentive Modulation (CAM) tokens, which introduce cross-attentive units used to condition node and edge-level modulations in order to enable context-aware computations that improve the global consistency of the prediction links. We will implement it on a few permutation invariant architectures, and showcase benchmarks that prove the merits of our work.
翻訳日:2024-05-31 19:35:56 公開日:2024-05-28
# PureEBM:エネルギーモデルミッドランダイナミクスによるユニバーサルポゾンの浄化

PureEBM: Universal Poison Purification via Mid-Run Dynamics of Energy-Based Models ( http://arxiv.org/abs/2405.19376v1 )

ライセンス: Link先を確認
Omead Pooladzandi, Jeffrey Jiang, Sunay Bhat, Gregory Pottie, (参考訳) データ中毒攻撃は、トレーニング中に敵の例を注入することで、ターゲット配布テストデータの誤分類につながることによって、機械学習モデルの完全性に重大な脅威をもたらす。 既存のSoTA(State-of-the-art)防衛手法は、一般化性能の大幅な低下、特定の攻撃タイプや分類器への特異性、訓練中のかなりのオーバーヘッドなど、様々な制限に悩まされており、現実のアプリケーションでは非現実的または限定的である。 この課題に対応するために、我々は、画像$xで初期化された収束エネルギーベースモデル(EBM)の反復的ランゲヴィンサンプリングにより実現された普遍確率前処理ステップ$\Psi_{T}(x)$を適用することにより、悪質な白、グレー、ブラックボックスのイメージ毒から自然に訓練された分類器を保護するユニバーサルデータ浄化手法を導入する。 $$\Psi_{T}(x)$のミッドランダイナミクス 分類器ネットワークの一般化に重要な機能に対する最小限の影響で毒情報を浄化する。 EBM の対照的な学習過程は,有毒な EBM トレーニングデータが存在する場合でも,普遍的な清浄剤を維持でき,さらに,有毒なNarcissus および無毒な無毒な Gradient Matching と Bullseye Polytope を誘導する SoTA の防御を達成できることを示す。 この研究はPureGenで導入されたより大きなフレームワークのサブセットであり、ESMの浄化と毒の防御により詳細な焦点をあてている。

Data poisoning attacks pose a significant threat to the integrity of machine learning models by leading to misclassification of target distribution test data by injecting adversarial examples during training. Existing state-of-the-art (SoTA) defense methods suffer from a variety of limitations, such as significantly reduced generalization performance, specificity to particular attack types and classifiers, and significant overhead during training, making them impractical or limited for real-world applications. In response to this challenge, we introduce a universal data purification method that defends naturally trained classifiers from malicious white-, gray-, and black-box image poisons by applying a universal stochastic preprocessing step $\Psi_{T}(x)$, realized by iterative Langevin sampling of a convergent Energy Based Model (EBM) initialized with an image $x.$ Mid-run dynamics of $\Psi_{T}(x)$ purify poison information with minimal impact on features important to the generalization of a classifier network. We show that the contrastive learning process of EBMs allows them to remain universal purifiers, even in the presence of poisoned EBM training data, and to achieve SoTA defense on leading triggered poison Narcissus and triggerless poisons Gradient Matching and Bullseye Polytope. This work is a subset of a larger framework introduced in PureGen with a more detailed focus on EBM purification and poison defense.
翻訳日:2024-05-31 19:35:56 公開日:2024-05-28
# ウイルスゲノムアライメントフリー分類における統計的線形モデル:C型肝炎ウイルスへの応用

Statistical Linear Models in Virus Genomic Alignment-free Classification: Application to Hepatitis C Viruses ( http://arxiv.org/abs/1910.05421v3 )

ライセンス: Link先を確認
Amine M. Remita, Abdoulaye Baniré Diallo, (参考訳) ウイルス配列分類は病原体の検出、疫学調査、進化研究において重要な課題である。 統計的学習法は、環境からのサンプル中のウイルス配列の分類と同定に広く用いられている。 これらの手法は、組換え、突然変異率、多様性など、ウイルスゲノムの性質と性質に関連するいくつかの課題に直面している。 また、新しい世代のシークエンシング技術は、大量の断片化されたシーケンスを生成することで、他の困難を生じさせる。 線形分類器はウイルスの分類によく用いられるが、アライメントフリーアプローチの文脈では既存のモデルの精度空間の探索が欠如している。 本研究では, 遺伝子組換えおよび部分的, 完全ゲノムのサブタイプにおける線形分類器の能力について, 徹底的な評価手法を提案する。 C型肝炎ウイルス(HCV)に感染する。 本研究では,分類器型(生成的・識別的)とその超パラメータ(平滑化値と正規化ペナルティ関数),分類タスク(ジェノタイピングとサブタイピング),テストシーケンスの長さ(部分的・完全),k-mer語の長さなど,いくつかの変数が検討されている。 全体として、いくつかの分類器は、上記の実験変数の正確な組み合わせの集合が与えられたときによく機能する。 最後に、ウイルスゲノムの分類をより堅牢に評価するための手順とベンチマークデータを提供する。

Viral sequence classification is an important task in pathogen detection, epidemiological surveys and evolutionary studies. Statistical learning methods are widely used to classify and identify viral sequences in samples from environments. These methods face several challenges associated with the nature and properties of viral genomes such as recombination, mutation rate and diversity. Also, new generations of sequencing technologies rise other difficulties by generating massive amounts of fragmented sequences. While linear classifiers are often used to classify viruses, there is a lack of exploration of the accuracy space of existing models in the context of alignment free approaches. In this study, we present an exhaustive assessment procedure exploring the power of linear classifiers in genotyping and subtyping partial and complete genomes. It is applied to the Hepatitis C viruses (HCV). Several variables are considered in this investigation such as classifier types (generative and discriminative) and their hyper-parameters (smoothing value and regularization penalty function), the classification task (genotyping and subtyping), the length of the tested sequences (partial and complete) and the length of k-mer words. Overall, several classifiers perform well given a set of precise combination of the experimental variables mentioned above. Finally, we provide the procedure and benchmark data to allow for more robust assessment of classification from virus genomes.
翻訳日:2024-05-31 02:51:07 公開日:2024-05-28
# テンソルネットワークにおける臨界U(1)スピン液体と創発対称性のロバスト性

Robustness of critical U(1) spin liquids and emergent symmetries in tensor networks ( http://arxiv.org/abs/2008.04833v2 )

ライセンス: Link先を確認
Henrik Dreyer, Laurens Vanderstraeten, Ji-Yao Chen, Ruben Verresen, Norbert Schuch, (参考訳) 臨界共鳴バレンス結合 (RVB) スピン液体の長距離一重項を持つドーピングに対する応答について検討し, より一般的には非対称摂動に対するU(1)対称テンソルネットワークについて検討した。 フィールド理論の記述を用いて、RVBではドーピングが関連する摂動を構成しており、以前の観測とは対照的にすぐにギャップを開きます。 本分析では, ドッピング量においても非常に大きな相関長を予測し, 高精度な数値シミュレーションを用いて検証する。 これは注意深い分析の必要性を強調しつつ、臨界系に対する変分アンサッツのような状態の使用を正当化する。 最後に、非対称摂動がギャップを開かず、U(1)対称性が再帰するPEPSの例を示す。

We study the response of critical Resonating Valence Bond (RVB) spin liquids to doping with longer-range singlets, and more generally of U(1)-symmetric tensor networks to non-symmetric perturbations. Using a field theory description, we find that in the RVB, doping constitutes a relevant perturbation which immediately opens up a gap, contrary to previous observations. Our analysis predicts a very large correlation length even at significant doping, which we verify using high-accuracy numerical simulations. This emphasizes the need for careful analysis, but also justifies the use of such states as a variational ansatz for critical systems. Finally, we give an example of a PEPS where non-symmetric perturbations do not open up a gap and the U(1) symmetry re-emerges.
翻訳日:2024-05-31 02:51:07 公開日:2024-05-28
# 識別機構を有するスケーラブルなビデオオブジェクト分割

Scalable Video Object Segmentation with Identification Mechanism ( http://arxiv.org/abs/2203.11442v8 )

ライセンス: Link先を確認
Zongxin Yang, Jiaxu Miao, Yunchao Wei, Wenguan Wang, Xiaohan Wang, Yi Yang, (参考訳) 本稿では,半教師付きビデオオブジェクトセグメンテーション(VOS)において,スケーラブルで効果的なマルチオブジェクトモデリングを実現する上での課題について述べる。 従来のVOSメソッドは、単一の正のオブジェクトで機能をデコードし、マルチオブジェクト表現の学習を制限する。 さらに、以前のテクニックは特定のアプリケーション目標に適合し、異なるスピード精度要件を満たす柔軟性に欠けていた。 これらの問題を解決するために,AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)という2つの革新的なアプローチを提案する。 効果的なマルチオブジェクトモデリングの追求において、AOTは各オブジェクトにユニークなIDを割り当てるためのID(ID)メカニズムを導入している。 このアプローチにより、ネットワークは、すべてのオブジェクト間の関連を同時にモデル化し、単一のネットワークパスにおけるオブジェクトの追跡とセグメンテーションを容易にする。 非フレキシブルなデプロイメントの課題に対処するため、AOSTはさらに、スケーラブルな監視とレイヤ単位のIDベースの注意を取り入れた、スケーラブルな長期的な短期トランスフォーマーを統合している。 これにより、VOSで初めてオンラインアーキテクチャのスケーラビリティが可能になり、ID埋め込みの表現制限を克服できる。 マルチオブジェクトアノテーションを含むVOSのベンチマークが欠如していることを踏まえ,我々のアプローチを検証するために,ビデオオブジェクトセグメンテーション・イン・ザ・ワイルド(VOSW)ベンチマークを提案する。 VOSWと一般的に使用されているVOSベンチマーク5つ、YouTube-VOS 2018と2019 Val、DAVIS-2017 Val & Test、DAVIS-2016を含む、様々なAOTおよびAOSTのバリエーションを評価した。 当社のアプローチは最先端の競合に勝って,6つのベンチマークすべてにおいて,例外的な効率性とスケーラビリティを一貫して示しています。 プロジェクトページ: https://github.com/yoxu515/aot-benchmark.com

This paper delves into the challenges of achieving scalable and effective multi-object modeling for semi-supervised Video Object Segmentation (VOS). Previous VOS methods decode features with a single positive object, limiting the learning of multi-object representation as they must match and segment each target separately under multi-object scenarios. Additionally, earlier techniques catered to specific application objectives and lacked the flexibility to fulfill different speed-accuracy requirements. To address these problems, we present two innovative approaches, Associating Objects with Transformers (AOT) and Associating Objects with Scalable Transformers (AOST). In pursuing effective multi-object modeling, AOT introduces the IDentification (ID) mechanism to allocate each object a unique identity. This approach enables the network to model the associations among all objects simultaneously, thus facilitating the tracking and segmentation of objects in a single network pass. To address the challenge of inflexible deployment, AOST further integrates scalable long short-term transformers that incorporate scalable supervision and layer-wise ID-based attention. This enables online architecture scalability in VOS for the first time and overcomes ID embeddings' representation limitations. Given the absence of a benchmark for VOS involving densely multi-object annotations, we propose a challenging Video Object Segmentation in the Wild (VOSW) benchmark to validate our approaches. We evaluated various AOT and AOST variants using extensive experiments across VOSW and five commonly used VOS benchmarks, including YouTube-VOS 2018 & 2019 Val, DAVIS-2017 Val & Test, and DAVIS-2016. Our approaches surpass the state-of-the-art competitors and display exceptional efficiency and scalability consistently across all six benchmarks. Project page: https://github.com/yoxu515/aot-benchmark.
翻訳日:2024-05-31 02:51:07 公開日:2024-05-28
# 2光子駆動によるノイズ非エルミタン量子センシングの指数感度回復

Exponential sensitivity revival of noisy non-Hermitian quantum sensing with two-photon drives ( http://arxiv.org/abs/2303.16575v2 )

ライセンス: Link先を確認
Liying Bao, Bo Qi, Franco Nori, Daoyi Dong, (参考訳) 多重モード非エルミート格子力学の特異な性質を利用して指数関数的に感度の高いセンサを構築することができる。 しかし、ノイズの影響はいまだ不明であり、感度が著しく低下する可能性がある。 非エルミタンセンサの感度回復と安定性に対する損失と利得の影響を解析的に特徴付け,強調する。 量子センシングの優位性は損失の存在下で消滅するという一般的な信念を守り、損失を積極的に調整することで、感覚力学が安定すると指数的な感度が驚くほど回復する。 さらに、ゲインが理想的指数感度を完全に回復し、バランスの取れたロスとゲインによって非エルミートセンシングの安定性を確保することが重要であることを証明した。 本論文は、損失と利得を積極的に調整することで感度を著しく向上する方法を開き、将来の量子センシングと量子工学を促進する。

Unique properties of multimode non-Hermitian lattice dynamics can be utilized to construct exponentially sensitive sensors. However, the impact of noise remains unclear, which may severely degrade their sensitivity. We analytically characterize and highlight the impact of loss and gain on the sensitivity revival and stability of non-Hermitian sensors. Defying the general belief that the superiority of quantum sensing will vanish in the presence of loss, we find that by proactively tuning the loss, the exponential sensitivity can be surprisingly regained when the sensing dynamics is stable. Furthermore, we prove that gain is crucial to fully revive the ideally exponential sensitivity and to ensure the stability of non-Hermitian sensing by making a balanced loss and gain. Our paper opens a way to significantly enhance the sensitivity by proactively tuning the loss and gain, which may promote future quantum sensing and quantum engineering.
翻訳日:2024-05-31 02:41:05 公開日:2024-05-28
# 自己監督型時空間グラウンド(自己監督型時空間グラウンド) : ナラティブ・インストラクションによるマルチアクションビデオ

What, when, and where? -- Self-Supervised Spatio-Temporal Grounding in Untrimmed Multi-Action Videos from Narrated Instructions ( http://arxiv.org/abs/2303.16990v2 )

ライセンス: Link先を確認
Brian Chen, Nina Shvetsova, Andrew Rouditchenko, Daniel Kondermann, Samuel Thomas, Shih-Fu Chang, Rogerio Feris, James Glass, Hilde Kuehne, (参考訳) 時空間グラウンドメント(時空間グラウンド)とは、空間と時間における事象の局所化(例えばビデオデータ)を、言葉による記述のみに基づいて記述する作業である。 このタスクのモデルは、通常、人間の注釈付き文とバウンディングボックスの監督によって訓練される。 本研究は、この課題をマルチモーダルな監督の観点から解決し、人間のアノテーションを使わずに、ゆるやかなビデオとサブタイトルの監督のみに基づいて訓練された時空間行動基盤のためのフレームワークを提案する。 この目的のために,局所的な表現学習と,より詳細な空間情報を活用することに焦点を当てたグローバルな表現符号化を併用して,高次表現をキャプチャし,両者を協調的なアプローチで組み込む。 この課題を実生活環境で評価するために,5K以上のイベントに対して,高密度な時空間的接地アノテーションを提供するベンチマークデータセットが提案されている。 提案手法は,空間的,時間的,不整合な多行動時空間グラウンドなど,様々な設定において,現在のベースラインよりも改善されていることを示す。

Spatio-temporal grounding describes the task of localizing events in space and time, e.g., in video data, based on verbal descriptions only. Models for this task are usually trained with human-annotated sentences and bounding box supervision. This work addresses this task from a multimodal supervision perspective, proposing a framework for spatio-temporal action grounding trained on loose video and subtitle supervision only, without human annotation. To this end, we combine local representation learning, which focuses on leveraging fine-grained spatial information, with a global representation encoding that captures higher-level representations and incorporates both in a joint approach. To evaluate this challenging task in a real-life setting, a new benchmark dataset is proposed providing dense spatio-temporal grounding annotations in long, untrimmed, multi-action instructional videos for over 5K events. We evaluate the proposed approach and other methods on the proposed and standard downstream tasks showing that our method improves over current baselines in various settings, including spatial, temporal, and untrimmed multi-action spatio-temporal grounding.
翻訳日:2024-05-31 02:41:05 公開日:2024-05-28
# リッチテキストを用いた表現型テキスト・画像生成

Expressive Text-to-Image Generation with Rich Text ( http://arxiv.org/abs/2304.06720v3 )

ライセンス: Link先を確認
Songwei Ge, Taesung Park, Jun-Yan Zhu, Jia-Bin Huang, (参考訳) プレーンテキストは、テキストと画像の合成の一般的なインターフェースになっている。 しかし、その限定されたカスタマイズオプションは、ユーザーが求める出力を正確に記述することを妨げる。 例えば、プレーンテキストは、それぞれの単語の正確なRGB色値や重要性など、連続的な量を特定するのを難しくしている。 さらに、複雑なシーンのための詳細なテキストプロンプトを作成することは、人間が書くのが面倒で、テキストエンコーダが解釈するのは難しい。 これらの課題に対処するために、フォントスタイル、サイズ、色、フットノートなどのフォーマットをサポートするリッチテキストエディタを提案する。 それぞれの単語の属性をリッチテキストから抽出し、局所的なスタイル制御、明示的なトークン再重み付け、正確な色レンダリング、詳細な領域合成を可能にする。 領域ベースの拡散プロセスによりこれらの機能を実現する。 まず,平文を用いた拡散過程の注意図に基づいて各単語の領域を抽出する。 各領域に対して,地域固有の詳細なプロンプトを作成し,地域固有のガイダンスを適用してテキスト属性を強制し,地域ベースのインジェクションによる平文生成に対する忠実さを維持する。 リッチテキストからの画像生成の様々な例を示し、定量的評価により、本手法が強いベースラインより優れていることを示す。

Plain text has become a prevalent interface for text-to-image synthesis. However, its limited customization options hinder users from accurately describing desired outputs. For example, plain text makes it hard to specify continuous quantities, such as the precise RGB color value or importance of each word. Furthermore, creating detailed text prompts for complex scenes is tedious for humans to write and challenging for text encoders to interpret. To address these challenges, we propose using a rich-text editor supporting formats such as font style, size, color, and footnote. We extract each word's attributes from rich text to enable local style control, explicit token reweighting, precise color rendering, and detailed region synthesis. We achieve these capabilities through a region-based diffusion process. We first obtain each word's region based on attention maps of a diffusion process using plain text. For each region, we enforce its text attributes by creating region-specific detailed prompts and applying region-specific guidance, and maintain its fidelity against plain-text generation through region-based injections. We present various examples of image generation from rich text and demonstrate that our method outperforms strong baselines with quantitative evaluations.
翻訳日:2024-05-31 02:41:05 公開日:2024-05-28
# 関連性への注意のシフト:自由形大言語モデルの予測的不確実性定量化に向けて

Shifting Attention to Relevance: Towards the Predictive Uncertainty Quantification of Free-Form Large Language Models ( http://arxiv.org/abs/2307.01379v3 )

ライセンス: Link先を確認
Jinhao Duan, Hao Cheng, Shiqi Wang, Alex Zavalny, Chenan Wang, Renjing Xu, Bhavya Kailkhura, Kaidi Xu, (参考訳) 大規模言語モデル (LLM) は、言語生成と命令に続く有望な結果を示すが、しばしば「ハロシン化」し、出力の信頼性を低下させる。 不確実性量子化(UQ)の潜在的な解決策にもかかわらず、LSM内で正確に実装することは困難である。 我々の研究は単純なヒューリスティックを導入している: 自動回帰 LLM テキストの全てのトークンは、その基礎となる意味を等しく表しているわけではない。 しかし、現在の手法では不確実性を評価する際にこの不等式を過小評価しており、限定的な意味を持つトークンはUQにおいて等しくあるいは過度に重み付けされる。 これを修正するために、より関連性の高いSAR(Shifting Attention to more Relevant)コンポーネントをトークンレベルと文レベルの両方で提案する。 Vicuna, WizardLM, LLaMA-2-chat など, 一般的な LLM を対象とし, モデルサイズを33B まで拡張した広範囲な実験を行った。 我々は,読解,理科Q&A,医学Q&Aなどの領域を含む,自由形式の質問応答タスクを評価した。 総合的な人口統計分析と合わせて,SARの優れた性能を実証した。 コードはhttps://github.com/jinhaoduan/SAR.comで公開されている。

Large Language Models (LLMs) show promising results in language generation and instruction following but frequently "hallucinate", making their outputs less reliable. Despite Uncertainty Quantification's (UQ) potential solutions, implementing it accurately within LLMs is challenging. Our research introduces a simple heuristic: not all tokens in auto-regressive LLM text equally represent the underlying meaning, as "linguistic redundancy" often allows a few keywords to convey the essence of long sentences. However, current methods underestimate this inequality when assessing uncertainty, causing tokens with limited semantics to be equally or excessively weighted in UQ. To correct this, we propose Shifting Attention to more Relevant (SAR) components at both token- and sentence-levels for better UQ. We conduct extensive experiments involving a range of popular "off-the-shelf" LLMs, such as Vicuna, WizardLM, and LLaMA-2-chat, with model sizes extending up to 33B parameters. We evaluate various free-form question-answering tasks, encompassing domains such as reading comprehension, science Q&A, and medical Q&A. Our experimental results, coupled with a comprehensive demographic analysis, demonstrate the superior performance of SAR. The code is available at https://github.com/jinhaoduan/SAR.
翻訳日:2024-05-31 02:21:25 公開日:2024-05-28
# PIGEON:画像位置情報の予測

PIGEON: Predicting Image Geolocations ( http://arxiv.org/abs/2307.05845v6 )

ライセンス: Link先を確認
Lukas Haas, Michal Skreta, Silas Alberti, Chelsea Finn, (参考訳) 惑星規模の画像のジオローカライゼーションは、世界中のどこから来た画像の多様性のため、依然として困難な問題である。 視覚変換器をベースとした手法は地理的局所化の精度を大幅に向上させたが、先行文学における成功はランドマークの画像の狭い分布に制約されており、性能は見当たらない場所に一般化されていない。 本稿では, セマンティックジオセル生成, マルチタスクコントラスト事前学習, 新たな損失関数を組み合わせた新しいジオローカライズシステムを提案する。 さらに,本研究は,推定精度を高めるため,位置クラスタ上で検索を行う最初の試みである。 まず,Geoguessrのゲームから得られたデータに基づいてトレーニングを行い,目標地点から25km以内に推定値の40%以上を世界規模で配置することができる。 また、ロボットを開発し、人間に対する盲点実験でPIGEONをデプロイし、プレイヤーの上位0.01%にランク付けした。 我々はまた、世界有数のプロであるGeoguessrプレーヤーの1人に対して、数百万人の視聴者と6試合に挑戦し、6試合全てで勝利した。 第2のモデルであるPIGEOTTOは、FlickrとWikipediaの画像データセットでトレーニングされ、幅広い画像ジオローカライゼーションベンチマークで最先端の結果を達成し、都市の精度レベルでは最大7.7%、国レベルでは最大38.8ポイントのSOTAを上回ります。 この結果から,PIGEOTTOは未知の場所に効果的に一般化する最初の画像ジオローカライゼーションモデルであり,高精度で惑星規模の画像ジオローカライゼーションシステムを実現するための道を開くことができることが示唆された。 私たちのコードはGitHubで入手可能です。

Planet-scale image geolocalization remains a challenging problem due to the diversity of images originating from anywhere in the world. Although approaches based on vision transformers have made significant progress in geolocalization accuracy, success in prior literature is constrained to narrow distributions of images of landmarks, and performance has not generalized to unseen places. We present a new geolocalization system that combines semantic geocell creation, multi-task contrastive pretraining, and a novel loss function. Additionally, our work is the first to perform retrieval over location clusters for guess refinements. We train two models for evaluations on street-level data and general-purpose image geolocalization; the first model, PIGEON, is trained on data from the game of Geoguessr and is capable of placing over 40% of its guesses within 25 kilometers of the target location globally. We also develop a bot and deploy PIGEON in a blind experiment against humans, ranking in the top 0.01% of players. We further challenge one of the world's foremost professional Geoguessr players to a series of six matches with millions of viewers, winning all six games. Our second model, PIGEOTTO, differs in that it is trained on a dataset of images from Flickr and Wikipedia, achieving state-of-the-art results on a wide range of image geolocalization benchmarks, outperforming the previous SOTA by up to 7.7 percentage points on the city accuracy level and up to 38.8 percentage points on the country level. Our findings suggest that PIGEOTTO is the first image geolocalization model that effectively generalizes to unseen places and that our approach can pave the way for highly accurate, planet-scale image geolocalization systems. Our code is available on GitHub.
翻訳日:2024-05-31 02:21:25 公開日:2024-05-28
# 古典的、量子的、閉かつオープンなシステムに対する作用

Action for classical, quantum, closed and open systems ( http://arxiv.org/abs/2307.12320v2 )

ライセンス: Link先を確認
Janos Polonyi, (参考訳) 作用函数は古典力学、量子力学、閉力学、開力学を変動原理の一般化や古典力学、量子力学の経路積分形式論において定義することができることはよく知られている。 これらのスキームは異常な特徴、すなわち自由度を正式に再活性化することに基づいている。 やり直しを動機付けるいくつかの議論は古典力学や量子力学において、そのような形式主義が自然であることを証明するために進められている。

It is well known that the action functional can be used to define classical, quantum, closed, and open dynamics in a generalization of the variational principle and in the path integral formalism in classical and quantum dynamics, respectively. These schemes are based on an unusual feature, a formal redoubling of the degrees of freedom. Several arguments to motivate the redoubling are put forward in classical and quantum mechanics to demonstrate that such a formalism is natural.
翻訳日:2024-05-31 02:21:25 公開日:2024-05-28
# 代数集合を用いた半クリフォードゲートの特性評価

Characterising semi-Clifford gates using algebraic sets ( http://arxiv.org/abs/2309.15184v2 )

ライセンス: Link先を確認
Imin Chen, Nadish de Silva, (参考訳) フォールトトレラント量子計算における中心的な役割により、クリフォード階層の第3階層のゲートの集合とその「近対角」半クリフォードゲートの傑出した部分集合について研究する。 クリフォード階層ゲートは適切なマジック状態のゲートテレポーテーションによって実装することができる。 フォールトトレランスを達成するために必要なこれらのリソース状態の膨大な量は、普遍量子コンピュータの実践的実現にとって重要なボトルネックである。 セミクリフォードゲートはこれらの資源状態をはるかに効率的に利用して実装できるので重要である。 最大2キューディットの3階ゲートが全て半クリフォードであることを証明する。 したがって、qubit の場合における Zeng-Chen-Chuang (2008) の結果と、qutrit の場合における 2 番目の著者 (2020) の結果を、任意の素次元 $d$ のクォーディットの場合に一般化する。 初期の結果は網羅的な計算に頼っていたが、本研究では代数幾何学のツールを活用している。 具体的には、三階クリフォード階層ゲートと三階半クリフォードゲートの集合に対応する2つのスキームを構築する。 次に、これらのスキームを modulo $d$ に還元した2つの代数集合が、同じ有理点の集合を共有することを示す。

Motivated by their central role in fault-tolerant quantum computation, we study the sets of gates of the third-level of the Clifford hierarchy and their distinguished subsets of `nearly diagonal' semi-Clifford gates. The Clifford hierarchy gates can be implemented via gate teleportation given appropriate magic states. The vast quantity of these resource states required for achieving fault-tolerance is a significant bottleneck for the practical realisation of universal quantum computers. Semi-Clifford gates are important because they can be implemented with far more efficient use of these resource states. We prove that every third-level gate of up to two qudits is semi-Clifford. We thus generalise results of Zeng-Chen-Chuang (2008) in the qubit case and of the second author (2020) in the qutrit case to the case of qudits of arbitrary prime dimension $d$. Earlier results relied on exhaustive computations whereas our present work leverages tools of algebraic geometry. Specifically, we construct two schemes corresponding to the sets of third-level Clifford hierarchy gates and third-level semi-Clifford gates. We then show that the two algebraic sets resulting from reducing these schemes modulo $d$ share the same set of rational points.
翻訳日:2024-05-31 02:21:25 公開日:2024-05-28
# ニューラルネットワークの理論と実践の切り離しについて:NTK視点の限界

On the Disconnect Between Theory and Practice of Neural Networks: Limits of the NTK Perspective ( http://arxiv.org/abs/2310.00137v2 )

ライセンス: Link先を確認
Jonathan Wenger, Felix Dangel, Agustinus Kristiadi, (参考訳) ニューラル・タンジェント・カーネル(NTK)は、大規模ニューラルネットワークの振る舞いを記述する理論的枠組みとして注目されている。 カーネル法は理論的によく理解されており、結果としてアルゴリズムの利点が享受され、より広い合成ニューラルネットワークアーキテクチャで実証できる。 これらの利点には、高速な最適化、信頼性のある不確実性定量化、継続的な学習の改善などがある。 しかしながら、現在のカーネル体制への収束率の定量化の結果は、これらの利点を活用するには、それらよりも桁違いに広いアーキテクチャが必要であることを示唆している。 この仮定は、実際に使用されるアーキテクチャがNTKが予測した振る舞いを示さないという懸念を提起する。 本稿では,NTKに関するこれまでの研究を,この制限機構が大規模建築物の実用的関連行動を予測するかどうかを実証的に検証することによって補足する。 我々の結果は、複数のドメインにまたがるケースではないことを証明している。 この観測により、NTK理論がアーキテクチャとアルゴリズムの選択にどのような影響を及ぼすべきかという疑問がさらに持ち上がった。

The neural tangent kernel (NTK) has garnered significant attention as a theoretical framework for describing the behavior of large-scale neural networks. Kernel methods are theoretically well-understood and as a result enjoy algorithmic benefits, which can be demonstrated to hold in wide synthetic neural network architectures. These advantages include faster optimization, reliable uncertainty quantification and improved continual learning. However, current results quantifying the rate of convergence to the kernel regime suggest that exploiting these benefits requires architectures that are orders of magnitude wider than they are deep. This assumption raises concerns that architectures used in practice do not exhibit behaviors as predicted by the NTK. Here, we supplement previous work on the NTK by empirically investigating whether the limiting regime predicts practically relevant behavior of large-width architectures. Our results demonstrate that this is not the case across multiple domains. This observed disconnect between theory and practice further calls into question to what degree NTK theory should inform architectural and algorithmic choices.
翻訳日:2024-05-31 02:11:35 公開日:2024-05-28
# DeepHGCN: 効率的でスケーラブルなDeep Hyperbolic Graph Convolutional Networksの準備

DeepHGCN: Recipe for Efficient and Scalable Deep Hyperbolic Graph Convolutional Networks ( http://arxiv.org/abs/2310.02027v3 )

ライセンス: Link先を確認
Jiaxu Liu, Xinping Yi, Xiaowei Huang, (参考訳) 双曲グラフ畳み込みネットワーク (HGCN) は階層グラフから情報を抽出する大きな可能性を証明している。 しかし、既存のHGCNは、高額な双曲演算と、深さが増加するにつれて過度に平滑な問題のために、浅いアーキテクチャに限られている。 GCNでは、過剰なスムースメントを緩和するために治療が適用されているが、双曲療法の開発は、双曲性の性質に適合するように慎重に設計されるべきであるため、異なる課題を呈している。 以上の課題に対処するため,本研究では,計算効率を劇的に改善し,オーバースムーシング効果を大幅に軽減した,最初の深層HGCNアーキテクチャであるDeepHGCNを提案する。 ディープHGCNは,(1)高速かつ高精度な線形写像を実現する新しい双曲的特徴変換層,(2)双曲的残差接続や重みと特徴の正則化といった手法を,効率的な双曲的中点法により促進する。 広範囲な実験により、DeepHGCNはユークリッドと浅い双曲GCNの変種と比較してリンク予測とノード分類のタスクが大幅に改善されていることが示されている。

Hyperbolic graph convolutional networks (HGCN) have demonstrated significant potential in extracting information from hierarchical graphs. However, existing HGCNs are limited to shallow architectures, due to the expensive hyperbolic operations and the over-smoothing issue as depth increases. Although in GCNs, treatments have been applied to alleviate over-smoothing, developing a hyperbolic therapy presents distinct challenges since operations should be carefully designed to fit the hyperbolic nature. Addressing the above challenges, in this work, we propose DeepHGCN, the first deep multi-layer HGCN architecture with dramatically improved computational efficiency and substantially alleviated over-smoothing effect. DeepHGCN presents two key enablers of deep HGCNs: (1) a novel hyperbolic feature transformation layer that enables fast and accurate linear maps; and (2) techniques such as hyperbolic residual connections and regularization for both weights and features facilitated by an efficient hyperbolic midpoint method. Extensive experiments demonstrate that DeepHGCN obtains significant improvements in link prediction and node classification tasks compared to both Euclidean and shallow hyperbolic GCN variants.
翻訳日:2024-05-31 02:11:35 公開日:2024-05-28
# 予測不確実性に対するモデル非依存変数の重要性--エントロピーに基づくアプローチ

Model-agnostic variable importance for predictive uncertainty: an entropy-based approach ( http://arxiv.org/abs/2310.12842v2 )

ライセンス: Link先を確認
Danny Wood, Theodore Papamarkou, Matt Benatan, Richard Allmendinger, (参考訳) 機械学習アルゴリズムの予測を信頼するには,これらの予測に寄与する要因を理解する必要がある。 確率論的かつ不確実性を考慮したモデルの場合、予測自体の理由だけでなく、モデルが予測に自信を持つ理由も理解する必要がある。 本稿では、既存の説明可能性の手法を不確実性認識モデルに拡張し、そのような拡張を用いてモデルの予測分布における不確実性の原因を理解する方法について述べる。 特に、置換特徴量の重要性、部分依存プロット、個別条件予測プロットを適応させることにより、モデル行動に対する新たな洞察が得られ、これらの手法が、その分布の下での予測分布のエントロピーと基底真理ラベルの対数類似度の両方に対する特徴の影響を測定することができることを示す。 合成データと実世界のデータの両方を用いて実験を行い、不確実性の原因とモデル性能への影響の両方を理解するためにこれらの手法の有用性を実証する。

In order to trust the predictions of a machine learning algorithm, it is necessary to understand the factors that contribute to those predictions. In the case of probabilistic and uncertainty-aware models, it is necessary to understand not only the reasons for the predictions themselves, but also the reasons for the model's level of confidence in those predictions. In this paper, we show how existing methods in explainability can be extended to uncertainty-aware models and how such extensions can be used to understand the sources of uncertainty in a model's predictive distribution. In particular, by adapting permutation feature importance, partial dependence plots, and individual conditional expectation plots, we demonstrate that novel insights into model behaviour may be obtained and that these methods can be used to measure the impact of features on both the entropy of the predictive distribution and the log-likelihood of the ground truth labels under that distribution. With experiments using both synthetic and real-world data, we demonstrate the utility of these approaches to understand both the sources of uncertainty and their impact on model performance.
翻訳日:2024-05-31 00:10:23 公開日:2024-05-28
# GEO: ジェネレーティブエンジン最適化

GEO: Generative Engine Optimization ( http://arxiv.org/abs/2311.09735v2 )

ライセンス: Link先を確認
Pranjal Aggarwal, Vishvak Murahari, Tanmay Rajpurohit, Ashwin Kalyan, Karthik R Narasimhan, Ameet Deshpande, (参考訳) 大規模言語モデル (LLMs) の出現は, ユーザクエリに応答するための情報収集と要約に生成モデルを使用する, 検索エンジンの新たなパラダイムに根ざしている。 この新技術は、ジェネレーティブエンジン(GE)の統一的なフレームワークの下で形式化され、正確でパーソナライズされたレスポンスを生成し、GoogleやBingのような従来の検索エンジンを急速に置き換えます。 生成エンジンは通常、複数のソースから情報を合成し、LLMを使ってそれらを要約することでクエリを満足する。 この変更により、‘textit{user}ユーティリティと‘textit{generative search engine}トラフィックが大幅に改善されるが、第3のステークホルダーであるWebサイトとコンテンツクリエーターにとって大きな課題となる。 生成エンジンのブラックボックスと高速移動の性質を考えると、コンテンツクリエーターは、そのコンテンツを表示するtextit{when} と \textit{how} をほとんど、あるいは全くコントロールしていない。 生成エンジンが残るためには、創造者経済が不利益にならないようにしなければなりません。 これを解決するために、私たちは、可視化メトリクスの最適化と定義のための柔軟なブラックボックス最適化フレームワークを通じて、GEレスポンスにおけるコンテンツの可視性を改善するために、コンテンツクリエーターを支援する最初の新しいパラダイムであるジェネラティブエンジン最適化(GEO)を紹介します。 我々は,複数のドメインにまたがる多様なユーザクエリの大規模ベンチマークであるGEO-benchと,これらのクエリに応答する関連Webソースを導入することで,体系的な評価を容易にする。 厳密な評価により,GEOの可視性は最大40%向上することを示した。 さらに、これらの戦略の有効性はドメインによって異なり、ドメイン固有の最適化手法の必要性が強調されている。 私たちの研究は、情報発見システムにおける新たなフロンティアを開き、GEの開発者とコンテンツクリエーターの両方に深い影響をもたらします。

The advent of large language models (LLMs) has ushered in a new paradigm of search engines that use generative models to gather and summarize information to answer user queries. This emerging technology, which we formalize under the unified framework of generative engines (GEs), can generate accurate and personalized responses, rapidly replacing traditional search engines like Google and Bing. Generative Engines typically satisfy queries by synthesizing information from multiple sources and summarizing them using LLMs. While this shift significantly improves \textit{user} utility and \textit{generative search engine} traffic, it poses a huge challenge for the third stakeholder - website and content creators. Given the black-box and fast-moving nature of generative engines, content creators have little to no control over \textit{when} and \textit{how} their content is displayed. With generative engines here to stay, we must ensure the creator economy is not disadvantaged. To address this, we introduce Generative Engine Optimization (GEO), the first novel paradigm to aid content creators in improving their content visibility in GE responses through a flexible black-box optimization framework for optimizing and defining visibility metrics. We facilitate systematic evaluation by introducing GEO-bench, a large-scale benchmark of diverse user queries across multiple domains, along with relevant web sources to answer these queries. Through rigorous evaluation, we demonstrate that GEO can boost visibility by up to 40\% in GE responses. Moreover, we show the efficacy of these strategies varies across domains, underscoring the need for domain-specific optimization methods. Our work opens a new frontier in information discovery systems, with profound implications for both developers of GEs and content creators.
翻訳日:2024-05-31 00:10:23 公開日:2024-05-28
# Direct Clifford+T Lattice surgery Compilation を用いた実用量子回路の実用化のための現実的コスト

Realistic Cost to Execute Practical Quantum Circuits using Direct Clifford+T Lattice Surgery Compilation ( http://arxiv.org/abs/2311.10686v3 )

ライセンス: Link先を確認
Tyler LeBlond, Christopher Dean, George Watkins, Ryan S. Bennink, (参考訳) 本稿では,Clifford+Tゲートセットを用いて表現された量子回路を表面コード格子手術命令セットに明示的にコンパイルする資源推定パイプラインについて報告する。 コンパイルされた回路からのマジック状態要求のケイデンスにより、ポストホック解析においてマジック状態の蒸留と貯蔵要求の最適化が可能となる。 論理回路を格子状手術操作にコンパイルするために,オープンソースのLattice Surgery Compilerを構築した。 修正されたコンパイラは、論理ゲートを抽象的なレイアウトに依存しない命令セットに変換し、第2は、特定のリソースレイアウトに従ってハードウェアタイルに割り当てられる局所格子手術命令にコンパイルする。 第2段階は論理的並列性を維持しながら、フォールトトレラント層におけるリソース競合を回避し、リアリズムを支援する。 さらに、ユーザーはマジック状態が補充された専用タイルを指定することができ、論理計算からのリソースコストをマジック状態の蒸留と貯蔵から独立して考慮することができる。 我々は,分子の基底状態推定のための資源推定を提供することにより,大規模で実用的な量子回路へのパイプラインの適用性を実証する。 実回路における可変マジック状態の消費速度は、生産量が異なる限り、マジック状態記憶装置の資源コストが支配的になる可能性がある。

We report a resource estimation pipeline that explicitly compiles quantum circuits expressed using the Clifford+T gate set into a surface code lattice surgery instruction set. The cadence of magic state requests from the compiled circuit enables the optimization of magic state distillation and storage requirements in a post-hoc analysis. To compile logical circuits into lattice surgery operations, we build upon the open-source Lattice Surgery Compiler. The revised compiler operates in two stages: the first translates logical gates into an abstract, layout-independent instruction set; the second compiles these into local lattice surgery instructions that are allocated to hardware tiles according to a specified resource layout. The second stage retains logical parallelism while avoiding resource contention in the fault-tolerant layer, aiding realism. Additionally, users can specify dedicated tiles at which magic states are replenished, enabling resource costs from the logical computation to be considered independently from magic state distillation and storage. We demonstrate the applicability of our pipeline to large, practical quantum circuits by providing resource estimates for the ground state estimation of molecules. We find that variable magic state consumption rates in real circuits can cause the resource costs of magic state storage to dominate unless production is varied to suit.
翻訳日:2024-05-31 00:10:23 公開日:2024-05-28
# 解析可解モデルにおけるページ曲線絡み合いのダイナミクス

Page curve entanglement dynamics in an analytically solvable model ( http://arxiv.org/abs/2311.18045v3 )

ライセンス: Link先を確認
Stefan Kehrein, (参考訳) ブラックホールの絡み合いエントロピーは、ページ曲線に従うことが期待されている。 時間とともに最初の線形増加の後、絡み合いエントロピーはページ時間で最大に達し、その後減少する。 エントロピーの絡み合いは、体積法則で飽和するのではなく、最近になって漸近的に消える。 ページ曲線の屈曲は、粒子電流と絡み合い生成の間の半古典的な接続の崩壊、ハミルトニアンの絡み合いにおける量子相転移、および$q\rightarrow\infty$ Renyiエントロピーの非解析的挙動を伴う。 これらの観測は、ここで解析された正確な可解性モデルを超えて、より大きな種類のシステムに当てはまると期待されている。

The entanglement entropy of black holes is expected to follow the Page curve. After an initial linear increase with time the entanglement entropy should reach a maximum at the Page time and then decrease. This paper introduces an exactly solvable model of free fermions that explicitly shows such a Page curve: The entanglement entropy vanishes asymptotically for late times instead of saturating at a volume law. The bending down of the Page curve is accompanied by a breakdown of the semiclassical connection between particle current and entanglement generation, a quantum phase transition in the entanglement Hamiltonian and non-analytic behavior of the $q\rightarrow\infty$ Renyi entropy. These observations are expected to hold for a larger class of systems beyond the exactly solvable model analyzed here.
翻訳日:2024-05-31 00:00:32 公開日:2024-05-28
# テクスチャ生成のためのフィールド遅延をもつ単一メッシュ拡散モデル

Single Mesh Diffusion Models with Field Latents for Texture Generation ( http://arxiv.org/abs/2312.09250v3 )

ライセンス: Link先を確認
Thomas W. Mitchel, Carlos Esteves, Ameesh Makadia, (参考訳) 高品質なテクスチャを合成することを目的として、3次元形状の表面に直接作用する固有潜在拡散モデルの枠組みを導入する。 提案手法は,2つのコントリビューション,メッシュ頂点上の離散ベクトル場としてテクスチャを符号化する潜時表現,および学習された潜時空間における拡散過程を学習する場潜時拡散モデルである。 私たちは、メッシュ上の特定のテクスチャのバリエーションを生成するために、モデルがトレーニングされる、単一テクスチャ・メシュのパラダイムを考えています。 合成テクスチャは,既存の単一テクスチャ・メシュ生成モデルと比較すると,優れた忠実度を示す。 我々のモデルは、インペイントやラベル誘導生成などのユーザ制御編集タスクにも適応できる。 提案手法の有効性は, アイソメトリー下でのフレームワークの等価性に起因し, 局所的に類似した領域の細部をシームレスに再現し, 生成的テクスチャ伝達の概念への扉を開くことができる。

We introduce a framework for intrinsic latent diffusion models operating directly on the surfaces of 3D shapes, with the goal of synthesizing high-quality textures. Our approach is underpinned by two contributions: field latents, a latent representation encoding textures as discrete vector fields on the mesh vertices, and field latent diffusion models, which learn to denoise a diffusion process in the learned latent space on the surface. We consider a single-textured-mesh paradigm, where our models are trained to generate variations of a given texture on a mesh. We show the synthesized textures are of superior fidelity compared those from existing single-textured-mesh generative models. Our models can also be adapted for user-controlled editing tasks such as inpainting and label-guided generation. The efficacy of our approach is due in part to the equivariance of our proposed framework under isometries, allowing our models to seamlessly reproduce details across locally similar regions and opening the door to a notion of generative texture transfer.
翻訳日:2024-05-30 23:50:38 公開日:2024-05-28
# テキスト-画像拡散モデルのための正規化ニュートンラフソンインバージョン

Regularized Newton Raphson Inversion for Text-to-Image Diffusion Models ( http://arxiv.org/abs/2312.12540v2 )

ライセンス: Link先を確認
Dvir Samuel, Barak Meiri, Nir Darshan, Shai Avidan, Gal Chechik, Rami Ben-Ari, (参考訳) 拡散反転は、画像とそれを記述したテキストプロンプトを取り込み、画像を生成する雑音消音器を見つけるという問題である。 現在のほとんどのインバージョン技術は、暗黙の方程式を解くことで動作し、ゆっくりと収束するか、再構成された画像が貧弱になる可能性がある。 そこで我々は,この問題を暗黙の方程式の根源として定式化し,効率的な解法を設計する。 我々の解法は、数値解析においてよく知られた手法であるNewton-Raphson (NR) に基づいている。 NRの単純な応用は計算不可能であり、誤った解に収束する傾向がある。 高品質な再構成を提供する解に迅速に収束する効率的な正規化定式化について述べる。 また,インバージョンプロセス中の条件付けによる不整合の原因を同定し,インバージョン品質を著しく低下させる。 この問題に対処するため、我々はエンコーディングの即時調整を導入し、この問題を効果的に修正する。 我々のソリューションであるRegularized Newton-Raphson Inversionは、遅延一貫性モデルのために0.5秒以内に画像を反転させ、インタラクティブな画像編集のための扉を開く。 さらに、画像補間と希少物体の生成における改善された結果を示す。

Diffusion inversion is the problem of taking an image and a text prompt that describes it and finding a noise latent that would generate the image. Most current inversion techniques operate by approximately solving an implicit equation and may converge slowly or yield poor reconstructed images. Here, we formulate the problem as finding the roots of an implicit equation and design a method to solve it efficiently. Our solution is based on Newton-Raphson (NR), a well-known technique in numerical analysis. A naive application of NR may be computationally infeasible and tends to converge to incorrect solutions. We describe an efficient regularized formulation that converges quickly to a solution that provides high-quality reconstructions. We also identify a source of inconsistency stemming from prompt conditioning during the inversion process, which significantly degrades the inversion quality. To address this, we introduce a prompt-aware adjustment of the encoding, effectively correcting this issue. Our solution, Regularized Newton-Raphson Inversion, inverts an image within 0.5 sec for latent consistency models, opening the door for interactive image editing. We further demonstrate improved results in image interpolation and generation of rare objects.
翻訳日:2024-05-30 23:50:38 公開日:2024-05-28
# ソフトウェアデブロ化ツールの幅広い比較評価

A Broad Comparative Evaluation of Software Debloating Tools ( http://arxiv.org/abs/2312.13274v2 )

ライセンス: Link先を確認
Michael D. Brown, Adam Meily, Brian Fairservice, Akshay Sood, Jonathan Dorn, Eric Kilmer, Ronald Eytchison, (参考訳) ソフトウェアデ肥大化ツールは、bloatと呼ばれる不要なコードを削除することで、プログラムのセキュリティとパフォーマンスを改善しようとしている。 多くのテクニックが提案されているが、採用への障壁がいくつか現れている。 すなわち、デ肥大化ツールは高度に専門化されており、採用者が自身のニーズに合ったタイプのツールを見つけることは困難である。 これは、確立されたメトリクスの欠如と、ツール間の比較評価によってさらに妨げられます。 この情報ギャップを埋めるため、我々は10年間にわたるデブロ化文学と、現在商業開発中のいくつかのツールを調査し、デブロ化エコシステムに関する知識を分類した。 次に, 相対的強度と弱さを判定するために, 10個の脱血ツールの広範囲な比較評価を行った。 評価は、20のベンチマークプログラム、12のパフォーマンス、セキュリティ、正当性の測定ツールに基づいて行われた。 筆者らの評価では, 脱血文学における一般的な物語と矛盾するいくつかの知見が浮かび上がっている。 まず、デ肥大化ツールには、現実のソフトウェアで使用するために必要な成熟度が欠如している。 第二に、デ肥大化ツールは健全で堅牢なプログラムを作成するのに苦労する。 新たなファジィファジィツールであるDIFFERを用いて、私たちのデ肥大化の試みのわずか13%が、健全で堅牢なデ肥大化プログラムを生み出したことがわかった。 最後に,この結果から,デ肥大化ツールは一般的に,デ肥大化プログラムの性能やセキュリティの姿勢を著しく改善しないことが明らかとなった。 この論文における私たちのコントリビューションは、潜在的な採用者がツールの展望をよりよく理解し、より有能なデブロ化ツールの今後の研究と開発を動機付けるだろうと信じています。 この目的のために、ベンチマークセット、データ、カスタムツールを公開しました。

Software debloating tools seek to improve the program security and performance by removing unnecessary code, called bloat. While many techniques have been proposed, several barriers to their adoption have emerged. Namely, debloating tools are highly specialized, making it difficult for adopters to find the right type of tool for their needs. This is further hindered by a lack of established metrics and comparative evaluations between tools. To close this information gap, we surveyed 10 years of debloating literature and several tools currently under commercial development to taxonomize knowledge about the debloating ecosystem. We then conducted a broad comparative evaluation of 10 debloating tools to determine their relative strengths and weaknesses. Our evaluation, conducted on a diverse set of 20 benchmark programs, measures tools across 12 performance, security, and correctness metrics. Our evaluation surfaces several concerning findings that contradict the prevailing narrative in debloating literature. First, debloating tools lack the required maturity to be used on real-world software, evidenced by a slim 21\% overall success rate for creating passable debloated versions of medium- and high-complexity benchmarks. Second, debloating tools struggle to produce sound and robust programs. Using our novel differential fuzzing tool, DIFFER, we discovered that only 13\% of our debloating attempts produced a sound and robust debloated program. Finally, our results indicate that debloating tools typically do not improve the performance or security posture of debloated programs by a significant degree. We believe that our contributions in this paper will help potential adopters better understand the landscape of tools and will motivate future research and development of more capable debloating tools. To this end, we have made our benchmark set, data, and custom tools publicly available.
翻訳日:2024-05-30 23:50:38 公開日:2024-05-28
# コンセプト・ボトルネック・モデルは地域性に悪影響を及ぼすか?

Do Concept Bottleneck Models Obey Locality? ( http://arxiv.org/abs/2401.01259v2 )

ライセンス: Link先を確認
Naveen Raman, Mateo Espinosa Zarlenga, Juyeon Heo, Mateja Jamnik, (参考訳) 概念に基づく手法は、人間の理解可能な概念を用いてモデル予測を説明する。 これらのモデルは正確な概念予測器を必要とするが、既存の概念予測器が基礎となる概念に忠実であることは明らかではない。 本稿では,一般的なコンセプトベースアーキテクチャのファミリであるConcept Bottleneck Models (CBM) の忠実さを,データセットの「地域」を尊重するかどうかを考察する。 ローカリティは、コンセプトの価値を予測する際に、関連する機能のみを使用する。 局所性が考慮されない場合、その概念は、急激な相関性、性能劣化、堅牢性に基づいて予測される。 本研究は,モデル入力の摂動によってCBM予測がどのように変化するのかを考察し,独立概念が重複しない特徴部分集合に局所化されても,CBMが局所性を捉えないことを示す。 我々の経験的および理論的結果は、相関した概念を持つデータセットが、局所性を学習できない正確だが解釈不能なモデルに繋がることを示した。 全体として、CBMの解釈性は脆弱であり、CBMは時に急激な特徴に依存し、概念予測器の堅牢性に関するさらなる研究を必要としている。

Concept-based methods explain model predictions using human-understandable concepts. These models require accurate concept predictors, yet the faithfulness of existing concept predictors to their underlying concepts is unclear. In this paper, we investigate the faithfulness of Concept Bottleneck Models (CBMs), a popular family of concept-based architectures, by looking at whether they respect "localities" in datasets. Localities involve using only relevant features when predicting a concept's value. When localities are not considered, concepts may be predicted based on spuriously correlated features, degrading performance and robustness. This work examines how CBM predictions change when perturbing model inputs, and reveals that CBMs may not capture localities, even when independent concepts are localised to non-overlapping feature subsets. Our empirical and theoretical results demonstrate that datasets with correlated concepts may lead to accurate but uninterpretable models that fail to learn localities. Overall, we find that CBM interpretability is fragile, as CBMs occasionally rely upon spurious features, necessitating further research into the robustness of concept predictors.
翻訳日:2024-05-30 23:50:38 公開日:2024-05-28
# 2次元量子多体基底状態のバンバン準備--2次元テンソルネットワークを用いたアルゴリズムの最適化

Bang-bang preparation of quantum many-body ground states in two dimensions: optimization of the algorithm with a two-dimensional tensor network ( http://arxiv.org/abs/2401.09158v3 )

ライセンス: Link先を確認
Yintai Zhang, Jacek Dziarmaga, (参考訳) バンバン(BB)アルゴリズムは、初期積状態が$H_1$と$H_2$の間で交互に変化することによって、2次元(2次元)量子多体ハミルトンの基底状態を作成する。 近傍テンソル更新を用いて、BB進化を無限対絡み状態 (iPEPS) でシミュレートする。 交代シーケンスは、最終エネルギーをコスト関数として最適化する。 エネルギーは、その安定性のために接空間法で計算される。 この手法は、iPEPSの変分最適化により得られた基底状態に対して、量子臨界点付近の2次元逆場量子イジングモデルでベンチマークされる。 最適BB配列は、基底状態の量子アニールまたは断熱処理(AP)をシミュレートする配列と非摂動的に異なる。 最適BBエネルギーは最適APエネルギーよりもはるかに速いバン数と収束する。

A bang-bang (BB) algorithm prepares the ground state of a two-dimensional (2D) quantum many-body Hamiltonian $H=H_1+H_2$ by evolving an initial product state alternating between $H_1$ and $H_2$. We use the neighborhood tensor update to simulate the BB evolution with an infinite pair-entangled projected state (iPEPS). The alternating sequence is optimized with the final energy as a cost function. The energy is calculated with the tangent space methods for the sake of their stability. The method is benchmarked in the 2D transverse field quantum Ising model near its quantum critical point against a ground state obtained by variational optimization of the iPEPS. The optimal BB sequence differs non-perturbatively from a sequence simulating quantum annealing or adiabatic preparation (AP) of the ground state. The optimal BB energy converges with the number of bangs much faster than the optimal AP energy.
翻訳日:2024-05-30 23:50:38 公開日:2024-05-28
# 部分グロモフ・ワッサーシュタイン計量

Partial Gromov-Wasserstein Metric ( http://arxiv.org/abs/2402.03664v2 )

ライセンス: Link先を確認
Yikun Bai, Rocio Diaz Martin, Abihith Kothapalli, Hengrong Du, Xinran Liu, Soheil Kolouri, (参考訳) 近年、Gromov-Wasserstein(GW)距離は、異なる距離空間における測度の比較を可能にするため、機械学習コミュニティへの関心が高まっている。 古典的なGW問題と同じ質量要件によって課される制限を克服するために、研究者たちはバランスの取れない環境でその応用を探求し始めている。 しかし、アンバランス GW (UGW) は、2つの測度空間 (mm-空間) の間の厳密な距離/距離というよりは、差分と見なすことができる。 本稿では,部分グロモフ・ワッサーシュタイン(PGW)と呼ばれるUGW問題の特殊な事例を提案する。 我々は、PGWがmm空間間のよく定義された計量であることを確立し、PGW問題に対する最小化器の存在やPGWとGWの関係など、理論的性質について議論する。 次に、PGW問題を解くために、Frank-Wolfeアルゴリズムの2つの変種を提案し、それらが数学的および計算学的に等価であることを示す。 さらに、PGW測定値に基づいて、mm-空間に対するバリー中心の類似概念を導入する。 最後に, 形状マッチング, 形状検索, 形状補間などの応用において, PGW測定と関連する解法の有効性を検証し, 既存のベースラインと比較した。

The Gromov-Wasserstein (GW) distance has gained increasing interest in the machine learning community in recent years, as it allows for the comparison of measures in different metric spaces. To overcome the limitations imposed by the equal mass requirements of the classical GW problem, researchers have begun exploring its application in unbalanced settings. However, Unbalanced GW (UGW) can only be regarded as a discrepancy rather than a rigorous metric/distance between two metric measure spaces (mm-spaces). In this paper, we propose a particular case of the UGW problem, termed Partial Gromov-Wasserstein (PGW). We establish that PGW is a well-defined metric between mm-spaces and discuss its theoretical properties, including the existence of a minimizer for the PGW problem and the relationship between PGW and GW, among others. We then propose two variants of the Frank-Wolfe algorithm for solving the PGW problem and show that they are mathematically and computationally equivalent. Moreover, based on our PGW metric, we introduce the analogous concept of barycenters for mm-spaces. Finally, we validate the effectiveness of our PGW metric and related solvers in applications such as shape matching, shape retrieval, and shape interpolation, comparing them against existing baselines.
翻訳日:2024-05-30 23:40:54 公開日:2024-05-28
# LLMs for Material Discovery:実際は分子のベイズ最適化に良いのか?

A Sober Look at LLMs for Material Discovery: Are They Actually Good for Bayesian Optimization Over Molecules? ( http://arxiv.org/abs/2402.05015v2 )

ライセンス: Link先を確認
Agustinus Kristiadi, Felix Strieth-Kalthoff, Marta Skreta, Pascal Poupart, Alán Aspuru-Guzik, Geoff Pleiss, (参考訳) 自動化は現代の物質発見の基盤の1つである。 ベイズ最適化(BO)はそのようなワークフローの不可欠な部分であり、科学者は事前のドメイン知識を利用して大きな分子空間を効率的に探索することができる。 このような事前の知識は多くの形態をとることができるが、大きな言語モデル(LLM)にカプセル化された補助的な科学的知識には、かなりのファンファーレがあった。 しかし、既存の研究は、ヒューリスティックな材料探索のためのLLMを探索しているだけである。 実際、最近の研究は、ポイント推定された非ベイズ的 LLM から不確実性推定(BO の積分部分)を得る。 本研究では, LLMが分子空間におけるベイズ最適化の原理を加速するのに実際に有用かどうかを考察する。 私たちはこの質問に答える際に冷静で思いやりのない姿勢を取る。 これは慎重に行われる 一 LLM を標準だが原則化された BO シュロゲートモデルの固定特徴抽出器として見ること。 二 パラメータ効率のよい微調整法とベイズニューラルネットワークを活用してLLMサロゲートの後部を得る。 実世界の化学問題に対する広範な実験により、LLMは分子上のBOに有用であるが、ドメイン固有のデータで事前訓練または微調整された場合に限り有用であることが示された。

Automation is one of the cornerstones of contemporary material discovery. Bayesian optimization (BO) is an essential part of such workflows, enabling scientists to leverage prior domain knowledge into efficient exploration of a large molecular space. While such prior knowledge can take many forms, there has been significant fanfare around the ancillary scientific knowledge encapsulated in large language models (LLMs). However, existing work thus far has only explored LLMs for heuristic materials searches. Indeed, recent work obtains the uncertainty estimate -- an integral part of BO -- from point-estimated, non-Bayesian LLMs. In this work, we study the question of whether LLMs are actually useful to accelerate principled Bayesian optimization in the molecular space. We take a sober, dispassionate stance in answering this question. This is done by carefully (i) viewing LLMs as fixed feature extractors for standard but principled BO surrogate models and by (ii) leveraging parameter-efficient finetuning methods and Bayesian neural networks to obtain the posterior of the LLM surrogate. Our extensive experiments with real-world chemistry problems show that LLMs can be useful for BO over molecules, but only if they have been pretrained or finetuned with domain-specific data.
翻訳日:2024-05-30 23:31:04 公開日:2024-05-28
# ニュートリノ媒体における一生の遭遇モデル:コヒーレント振動からフレーバー平衡へ

Once-in-a-lifetime encounter models for neutrino media: From coherent oscillations to flavor equilibration ( http://arxiv.org/abs/2402.05022v2 )

ライセンス: Link先を確認
Anson Kost, Lucas Johns, Huaiyu Duan, (参考訳) 集団ニュートリノ振動は典型的には、平均場近似(英語版)としても知られる最低階の量子力学方程式を用いて研究される。 しかし、近年の量子多体シミュレーションでは、ニュートリノ間の量子絡み合いが重要であり、ニュートリノガスのフレーバー平衡をもたらす可能性が示唆されている。 本研究では,ニュートリノガスに対する新しい量子モデルを開発し,一対のニュートリノが一生に一度だけ相互作用できることを示す。 我々のモデルの主要なパラメータは$\gamma=\mu \Delta z$であり、$\mu$はニュートリノ結合強度であり、これはニュートリノ密度に比例する。 我々のモデルは、極限$\gamma\to0$の平均場アプローチに還元され、時間$t \gg (\gamma\mu)^{-1}$のフレーバー平衡を達成する。 これらのモデルは、粒子の観点からコヒーレントなフレーバー振動の出現を示し、集合ニュートリノ振動における量子エンタングルメントの役割を解明するのに役立つ。

Collective neutrino oscillations are typically studied using the lowest-order quantum kinetic equation, also known as the mean-field approximation. However, some recent quantum many-body simulations suggest that quantum entanglement among neutrinos may be important and may result in flavor equilibration of the neutrino gas. In this work, we develop new quantum models for neutrino gases in which any pair of neutrinos can interact at most once in their lifetimes. A key parameter of our models is $\gamma=\mu \Delta z$, where $\mu$ is the neutrino coupling strength, which is proportional to the neutrino density, and $\Delta z$ is the duration over which a pair of neutrinos can interact each time. Our models reduce to the mean-field approach in the limit $\gamma\to0$ and achieve flavor equilibration in time $t \gg (\gamma\mu)^{-1}$. These models demonstrate the emergence of coherent flavor oscillations from the particle perspective and may help elucidate the role of quantum entanglement in collective neutrino oscillations.
翻訳日:2024-05-30 23:31:04 公開日:2024-05-28
# 一般化された選好最適化:オフラインアライメントへの統一アプローチ

Generalized Preference Optimization: A Unified Approach to Offline Alignment ( http://arxiv.org/abs/2402.05749v2 )

ライセンス: Link先を確認
Yunhao Tang, Zhaohan Daniel Guo, Zeyu Zheng, Daniele Calandriello, Rémi Munos, Mark Rowland, Pierre Harvey Richemond, Michal Valko, Bernardo Ávila Pires, Bilal Piot, (参考訳) オフライン優先最適化により、オフラインデータから直接大規模なモデルを微調整することが可能となり、最近のアライメントプラクティスで有効であることが証明された。 凸関数の一般クラスによってパラメータ化されるオフライン損失の族である一般化優先最適化(GPO)を提案する。 GPOは、DPO、IPO、SLiCといった既存のアルゴリズムを特別なケースとして含みながら、優先最適化に関する統一的なビューを可能にします。 GPOフレームワークはまた、損失を定義する凸関数の設計を通じて、オフラインアルゴリズムが正規化をどのように実施するかについても光を当てている。 解析および実験により、正準RLHFの定式化を意図したオフライン正則化とKL分散正則化の関連性および微妙な相違が明らかとなった。 ガオら 2023 と同様の制御された設定では、GPO 変種は正規化と性能の類似したトレードオフを達成できるが、ハイパーパラメータの最適値は理論によって予測されるように異なる可能性がある。 以上の結果から,新たなアルゴリズムツールキットと経験的洞察を実践者のアライメントに提供した。

Offline preference optimization allows fine-tuning large models directly from offline data, and has proved effective in recent alignment practices. We propose generalized preference optimization (GPO), a family of offline losses parameterized by a general class of convex functions. GPO enables a unified view over preference optimization, encompassing existing algorithms such as DPO, IPO and SLiC as special cases, while naturally introducing new variants. The GPO framework also sheds light on how offline algorithms enforce regularization, through the design of the convex function that defines the loss. Our analysis and experiments reveal the connections and subtle differences between the offline regularization and the KL divergence regularization intended by the canonical RLHF formulation. In a controlled setting akin to Gao et al 2023, we also show that different GPO variants achieve similar trade-offs between regularization and performance, though the optimal values of hyper-parameter might differ as predicted by theory. In all, our results present new algorithmic toolkits and empirical insights to alignment practitioners.
翻訳日:2024-05-30 23:31:04 公開日:2024-05-28
# Decoupling Learning and Decision-Making: Breaking the $\mathcal{O}(\sqrt{T})$ Barrier in Online Resource Allocation with First-Order Methods

Decoupling Learning and Decision-Making: Breaking the $\mathcal{O}(\sqrt{T})$ Barrier in Online Resource Allocation with First-Order Methods ( http://arxiv.org/abs/2402.07108v2 )

ライセンス: Link先を確認
Wenzhi Gao, Chunlin Sun, Chenyu Xue, Dongdong Ge, Yinyu Ye, (参考訳) オンライン線形プログラミングは、収益管理と資源配分の両方において重要な役割を担い、近年では効率的な一階オンライン学習アルゴリズムの開発に重点を置いている。 一階法の実証的な成功にもかかわらず、それらは一般に$\mathcal{O}(\sqrt{T})$に劣らない後悔を達成し、これは、最先端の線形プログラミング(LP)ベースのオンラインアルゴリズムによって保証される$\mathcal{O}(\log T)$に比して最適である。 本稿では,オンライン線形プログラミングに関するいくつかの重要な事実を整理し,一階法に基づくオンラインアルゴリズムが$\mathcal{O}(\sqrt{T})を超えることの難しさを明らかにする。 この課題に対処するために、意思決定から学習を分離する新しいアルゴリズムフレームワークを導入する。 初めて、この新しいフレームワークで一階法が後悔する$\mathcal{O}(T^{1/3})$が得られることを示す。

Online linear programming plays an important role in both revenue management and resource allocation, and recent research has focused on developing efficient first-order online learning algorithms. Despite the empirical success of first-order methods, they typically achieve a regret no better than $\mathcal{O}(\sqrt{T})$, which is suboptimal compared to the $\mathcal{O}(\log T)$ bound guaranteed by the state-of-the-art linear programming (LP)-based online algorithms. This paper establishes several important facts about online linear programming, which unveils the challenge for first-order-method-based online algorithms to achieve beyond $\mathcal{O}(\sqrt{T})$ regret. To address the challenge, we introduce a new algorithmic framework that decouples learning from decision-making. For the first time, we show that first-order methods can attain regret $\mathcal{O}(T^{1/3})$ with this new framework.
翻訳日:2024-05-30 23:31:04 公開日:2024-05-28
# 切り換え可能なメカニズムによる暗黙の因果表現学習

Implicit Causal Representation Learning via Switchable Mechanisms ( http://arxiv.org/abs/2402.11124v2 )

ライセンス: Link先を確認
Shayan Shirahmad Gale Bagi, Zahra Gharaee, Oliver Schulte, Mark Crowley, (参考訳) 観測データと介入データからの因果表現の学習には,暗黙の潜伏因果表現学習が必要である。 因果的メカニズムの暗黙的な学習は通常、ハードとソフトの介入という2つの介入データを含む。 現実のシナリオでは、ソフトな介入はハードな介入よりも現実的であることが多い。 因果変化を直接強制するハード介入とは異なり、ソフト介入は因果機構に影響を与えることによって間接的に影響を与える。 しかし、ソフト介入の微妙さは因果モデルの学習にいくつかの課題を課している。 1つの課題は、親関係はそのままであり、ソフト介入の効果が曖昧であることである。 本稿では,ソフト介入を用いた因果モデル学習の課題に対処し,暗黙的モデリングを継続する。 提案手法は,異なる因果機構を切り替えるように設計された \textit{causal mechanism switch variable} を用いてソフト介入の効果をモデル化する。 実験では,ベースラインアプローチと比較して,同定可能な因果表現の学習の改善を一貫して観察した。

Learning causal representations from observational and interventional data in the absence of known ground-truth graph structures necessitates implicit latent causal representation learning. Implicit learning of causal mechanisms typically involves two categories of interventional data: hard and soft interventions. In real-world scenarios, soft interventions are often more realistic than hard interventions, as the latter require fully controlled environments. Unlike hard interventions, which directly force changes in a causal variable, soft interventions exert influence indirectly by affecting the causal mechanism. However, the subtlety of soft interventions impose several challenges for learning causal models. One challenge is that soft intervention's effects are ambiguous, since parental relations remain intact. In this paper, we tackle the challenges of learning causal models using soft interventions while retaining implicit modeling. Our approach models the effects of soft interventions by employing a \textit{causal mechanism switch variable} designed to toggle between different causal mechanisms. In our experiments, we consistently observe improved learning of identifiable, causal representations, compared to baseline approaches.
翻訳日:2024-05-30 23:21:18 公開日:2024-05-28
# PandoraのWhite-Box:大規模言語モデルにおける精密トレーニングデータの検出と抽出

Pandora's White-Box: Precise Training Data Detection and Extraction in Large Language Models ( http://arxiv.org/abs/2402.17012v2 )

ライセンス: Link先を確認
Jeffrey G. Wang, Jason Wang, Marvin Li, Seth Neel, (参考訳) 本稿では,Large Language Models (LLMs) に対する最先端のプライバシ攻撃について述べる。 我々の見出しは、ベースラインアタックの数百倍の精度を持つ事前訓練されたLLMに対する新たなメンバシップ推論アタック(MIA)と、自然条件下で微調整されたLLMから、細調整されたデータセットの50%以上(!)を抽出できることを示すパイプラインである。 基礎となるモデルへの様々なアクセス、事前学習および微調整データ、MIAとトレーニングデータ抽出の両方について検討する。 プレトレーニングデータには,モデル勾配に基づいてトレーニングデータメンバシップを予測する教師付きニューラルネットワーク分類器と,最近のLCMにおけるモデルスティーリング作業を活用したモデルへのロジットアクセスのみを必要とするこの攻撃の変種という,2つの新しいMIAを提案する。 私たちの知る限り、これはモデルステアリング情報を明示的に組み込んだ最初のMIAです。 どちらの攻撃も既存のブラックボックスベースラインより優れており、我々の監視された攻撃は、LSMに対するMIA攻撃の成功と、他の機械学習モデルにとって最も強力な攻撃とのギャップを埋める。 微調整では, ベースモデルと微調整モデルとの損失率に基づく単純な攻撃により, ほぼ完全なMIA性能が得られることがわかった。 これらの結果は、MIAおよびトレーニングデータ抽出のための事前訓練されたLLMと微調整されたLLMの両方に対する最強のプライバシ攻撃であり、これは独立した科学的関心を持ち、LLMのセキュリティ、プライバシ、著作権問題に重要な実践的意味を持つ。

In this paper we develop state-of-the-art privacy attacks against Large Language Models (LLMs), where an adversary with some access to the model tries to learn something about the underlying training data. Our headline results are new membership inference attacks (MIAs) against pretrained LLMs that perform hundreds of times better than baseline attacks, and a pipeline showing that over 50% (!) of the fine-tuning dataset can be extracted from a fine-tuned LLM in natural settings. We consider varying degrees of access to the underlying model, pretraining and fine-tuning data, and both MIAs and training data extraction. For pretraining data, we propose two new MIAs: a supervised neural network classifier that predicts training data membership on the basis of (dimensionality-reduced) model gradients, as well as a variant of this attack that only requires logit access to the model which leverages recent model-stealing work on LLMs. To our knowledge this is the first MIA that explicitly incorporates model-stealing information. Both attacks outperform existing black-box baselines, and our supervised attack closes the gap between MIA attack success against LLMs and the strongest known attacks for other machine learning models. In fine-tuning, we find that a simple attack based on the ratio of the loss between the base and fine-tuned models is able to achieve near-perfect MIA performance; we then leverage our MIA to extract a large fraction of the fine-tuning dataset from fine-tuned Pythia and Llama models. Taken together, these results represent the strongest existing privacy attacks against both pretrained and fine-tuned LLMs for MIAs and training data extraction, which are of independent scientific interest and have important practical implications for LLM security, privacy, and copyright issues.
翻訳日:2024-05-30 23:21:17 公開日:2024-05-28
# 多平面光変換器を用いた高次元量子鍵分布

High-dimensional quantum key distribution using a multi-plane light converter ( http://arxiv.org/abs/2403.04210v2 )

ライセンス: Link先を確認
Ohad Lib, Kfir Sulimany, Mateus Araújo, Michael Ben-Or, Yaron Bromberg, (参考訳) 高次元量子鍵分布(QKD)は、2進法に比べて高い情報容量と強い雑音耐性を提供する。 しかし、これらの利点は、要求される高次元の測定と変換を実現するのが困難であることによってしばしば妨げられる。 本稿では,大規模マルチプレーン光コンバータ(MPLC)を実装し,QKDの空間モードの高次元モードソータとしてプログラムする。 5次元QKDと6つの非バイアスベース,25次元QKDの2つの相互バイアスベースを同じ実験装置で示す。 さらに,実験誤差に対して頑健な相互に偏りのない基底のペアを構築することを提案し,測定複雑性は符号化次元の平方根に限られることを示した。 このアプローチは、より高次元のQKD実装の道を開く。

High-dimensional quantum key distribution (QKD) offers higher information capacity and stronger resilience to noise compared to its binary counterpart. However, these advantages are often hindered by the difficulty of realizing the required high-dimensional measurements and transformations. Here, we implement a large-scale multi-plane light converter (MPLC) and program it as a high-dimensional mode sorter of spatial modes for QKD. Using the MPLC, we demonstrate five-dimensional QKD with six mutually unbiased bases and 25-dimensional QKD with two mutually unbiased bases in the same experimental setup. Furthermore, we propose a construction of pairs of mutually unbiased bases that are robust to experimental errors, with measurement complexity scaling only with the square root of the encoded dimension. This approach paves the way for QKD implementations in higher dimensions.
翻訳日:2024-05-30 23:11:33 公開日:2024-05-28
# 未知のファインタニング例による言語モデルの幻覚制御

Unfamiliar Finetuning Examples Control How Language Models Hallucinate ( http://arxiv.org/abs/2403.05612v2 )

ライセンス: Link先を確認
Katie Kang, Eric Wallace, Claire Tomlin, Aviral Kumar, Sergey Levine, (参考訳) 大きな言語モデルは、馴染みのないクエリに直面すると幻覚化することが知られているが、モデル幻覚化の方法を管理する基盤となるメカニズムは、まだ完全には理解されていない。 この研究では、ベースモデルの知識の範囲を超えて概念を導入する、モデルの微調整データに見慣れない例が、これらのエラーを形成するのに不可欠であることが分かりました。 特に、LLMの幻覚予測は、馴染みの無い微調整の例と関連する反応を反映する傾向にある。 これは、不慣れな微調整例がどのように教師されるかを変更することで、不慣れなクエリに対するモデルの応答に影響を与える可能性があることを示唆している(例: ‘I don't know'')。 SFT, RL, および報奨モデルによるトリヴィアQAおよびMMLUの微調整を含む一連の制御実験において, この観測を実証的に検証した。 本研究は,RLファインタニング戦略をさらに研究し,長大なモデル生成の現実性を改善することを目的とする。 その結果、報酬モデルによる幻覚は、RLの事実性を微調整する効果を著しく損なうが、報酬モデルによる報酬モデルの幻覚がこれらのネガティブな効果を最小化する方法を戦略的に制御できることが判明した。 幻覚の制御に関するこれまでの知見を活かし、より信頼性の高い報酬モデルを学ぶためのアプローチを提案し、長文の伝記や書物・プロット生成タスクにおけるRL事実性の微調整の有効性を向上することを示す。

Large language models are known to hallucinate when faced with unfamiliar queries, but the underlying mechanism that govern how models hallucinate are not yet fully understood. In this work, we find that unfamiliar examples in the models' finetuning data -- those that introduce concepts beyond the base model's scope of knowledge -- are crucial in shaping these errors. In particular, we find that an LLM's hallucinated predictions tend to mirror the responses associated with its unfamiliar finetuning examples. This suggests that by modifying how unfamiliar finetuning examples are supervised, we can influence a model's responses to unfamiliar queries (e.g., say ``I don't know''). We empirically validate this observation in a series of controlled experiments involving SFT, RL, and reward model finetuning on TriviaQA and MMLU. Our work further investigates RL finetuning strategies for improving the factuality of long-form model generations. We find that, while hallucinations from the reward model can significantly undermine the effectiveness of RL factuality finetuning, strategically controlling how reward models hallucinate can minimize these negative effects. Leveraging our previous observations on controlling hallucinations, we propose an approach for learning more reliable reward models, and show that they improve the efficacy of RL factuality finetuning in long-form biography and book/movie plot generation tasks.
翻訳日:2024-05-30 23:11:33 公開日:2024-05-28
# 一般化職業モデルによる伝達性強化学習

Transferable Reinforcement Learning via Generalized Occupancy Models ( http://arxiv.org/abs/2403.06328v2 )

ライセンス: Link先を確認
Chuning Zhu, Xinqi Wang, Tyler Han, Simon S. Du, Abhishek Gupta, (参考訳) 知的エージェントは、様々なタスクに迅速に適応できるジェネラリストでなければならない。 強化学習(RL)において、モデルに基づくRLは、原則として計画を通じて任意の報酬関数への移行を可能にする、世界の力学モデルを学ぶ。 しかし、自己回帰モデルロールアウトは複合誤差に悩まされ、モデルベースRLは長距離問題には有効ではない。 継承機能は、政策の長期的状態占有度をモデル化し、新しいタスクの下での政策評価を線形報酬回帰に還元することで代替手段を提供する。 しかし、後継機能による政策改善は難しい可能性がある。 本研究は、定常データセットから後継特徴の分布を学習する一般化占有モデル(GOM)と、異なる後継特徴を実現するためのポリシーを新たに提案する。 これらのモデルは任意の新しいタスクに対する最適なアクションを素早く選択できる。 データセットの長期的な結果を直接モデル化することにより、GOMは、報酬関数間の迅速な転送を可能にしながら、複合エラーを回避することができる。 本稿では,拡散モデルを用いたGOMの実用的インスタンス化について述べるとともに,様々なシミュレーションロボティクス問題に対して理論的にも経験的にも,トランスファー可能なモデルの新たなクラスとしての有効性を示す。 ビデオとコードはhttps://weirdlabuw.github.io/gom/。

Intelligent agents must be generalists, capable of quickly adapting to various tasks. In reinforcement learning (RL), model-based RL learns a dynamics model of the world, in principle enabling transfer to arbitrary reward functions through planning. However, autoregressive model rollouts suffer from compounding error, making model-based RL ineffective for long-horizon problems. Successor features offer an alternative by modeling a policy's long-term state occupancy, reducing policy evaluation under new tasks to linear reward regression. Yet, policy improvement with successor features can be challenging. This work proposes a novel class of models, i.e., generalized occupancy models (GOMs), that learn a distribution of successor features from a stationary dataset, along with a policy that acts to realize different successor features. These models can quickly select the optimal action for arbitrary new tasks. By directly modeling long-term outcomes in the dataset, GOMs avoid compounding error while enabling rapid transfer across reward functions. We present a practical instantiation of GOMs using diffusion models and show their efficacy as a new class of transferable models, both theoretically and empirically across various simulated robotics problems. Videos and code at https://weirdlabuw.github.io/gom/.
翻訳日:2024-05-30 23:11:33 公開日:2024-05-28
# 正規化非負スケール不変低ランク近似モデルの効率的なアルゴリズム

Efficient Algorithms for Regularized Nonnegative Scale-invariant Low-rank Approximation Models ( http://arxiv.org/abs/2403.18517v2 )

ライセンス: Link先を確認
Jeremy E. Cohen, Valentin Leplat, (参考訳) スパース非負行列因子化やスパース非負タッカー分解のような正規化非負の低ランク近似は、解釈可能性を高めた次元還元モデルの重要な分岐である。 しかし、実際的な観点からは、正規化子と正規化係数の選択と効率的なアルゴリズムの設計は、これらのモデルの多因子の性質とこれらの選択を裏付ける理論の欠如のために困難である。 本稿ではこれらの課題を改善することを目的とする。 等質正規化スケール不変量(英語版)と呼ばれるより一般的なモデルを研究することにより、低ランク近似モデルに固有のスケール不変性が、予期せぬ有益効果と有害効果の両方で暗黙的な正則化を引き起こすことが証明される。 この観察により、低ランク近似モデルにおける正規化関数の効果をよりよく理解し、正規化ハイパーパラメータの選択をガイドし、専用最適化アルゴリズムの収束速度を高めるためのバランス戦略を設計することができる。 これらの結果のいくつかはすでに知られているが、正規化低ランク近似の特定の例に限定されている。 また、正規化された非負の低ランク近似の多くを、収束保証付きで処理する一般化行列化最小化アルゴリズムを導出する。 我々は,スパース非負行列因子分解,リッジ規則化カノニカルポリアディック分解,スパース非負タッカー分解への貢献を紹介する。

Regularized nonnegative low-rank approximations such as sparse Nonnegative Matrix Factorization or sparse Nonnegative Tucker Decomposition are an important branch of dimensionality reduction models with enhanced interpretability. However, from a practical perspective, the choice of regularizers and regularization coefficients, as well as the design of efficient algorithms, is challenging because of the multifactor nature of these models and the lack of theory to back these choices. This paper aims at improving upon these issues. By studying a more general model called the Homogeneous Regularized Scale-Invariant, we prove that the scale-invariance inherent to low-rank approximation models causes an implicit regularization with both unexpected beneficial and detrimental effects. This observation allows to better understand the effect of regularization functions in low-rank approximation models, to guide the choice of the regularization hyperparameters, and to design balancing strategies to enhance the convergence speed of dedicated optimization algorithms. Some of these results were already known but restricted to specific instances of regularized low-rank approximations. We also derive a generic Majorization Minimization algorithm that handles many regularized nonnegative low-rank approximations, with convergence guarantees. We showcase our contributions on sparse Nonnegative Matrix Factorization, ridge-regularized Canonical Polyadic decomposition and sparse Nonnegative Tucker Decomposition.
翻訳日:2024-05-30 23:01:49 公開日:2024-05-28
# 各種人工知能を用いた血液検査パラメータに基づくCOVID-19検出

COVID-19 Detection Based on Blood Test Parameters using Various Artificial Intelligence Methods ( http://arxiv.org/abs/2404.02348v2 )

ライセンス: Link先を確認
Kavian Khanjani, Seyed Rasoul Hosseini, Hamid Taheri, Shahrzad Shashaani, Mohammad Teshnehlab, (参考訳) 2019年には、新型コロナウイルスによる新型コロナウイルス感染症SARS-CoV-2(SARS-CoV-2)という新たな課題に直面した。 新型コロナウイルスは世界中で急速に広まり、死亡率が高くなり、医療機関は感染抑制策を講じた。 早期の疾患検出は治療プロセスにおいて不可欠であり、この取り組みを支援するためにコンピュータベースの自動検出システムが開発されている。 これらのシステムは、機械学習、ニューラルネットワーク、ファジィシステム、病気の分類のためのディープラーニングといった人工知能(AI)アプローチに依存していることが多い。 本研究は、自己分類分類器を用いて、さまざまなAI手法を用いて、新型コロナウイルス患者と他者とを区別することを目的とした。 この研究では、血液検査サンプルと放射線画像の2つのデータセットを使用しました。 サンラファエル病院で採取した血液検査の最良の結果は、Ensemble法(ニューラルネットワークと2つの機械学習手法の組み合わせ)を用いて、新型コロナウイルスと非新型コロナウイルスの2種類の個人を含む。 その結果、新型コロナウイルスの診断はコスト効率が高く、他の方法よりも短い時間で結果が得られることがわかった。 提案されたモデルは、使用するデータセットに対して94.09%の精度を達成した。 第2に、X線写真は、正常、ウイルス性肺炎、グラウンドガラスの透明度、COVID-19感染の4つのクラスに分けられた。 これらはセグメンテーションと分類に使用された。 肺葉は画像から抽出され、その後特定のクラスに分類された。 画像データセットで91.1%の精度を達成した。 一般的に、この研究は、新型コロナウイルスの検出と管理におけるAIの可能性を強調し、この分野における継続的な研究と開発の重要性を強調している。

In 2019, the world faced a new challenge: a COVID-19 disease caused by the novel coronavirus, SARS-CoV-2. The virus rapidly spread across the globe, leading to a high rate of mortality, which prompted health organizations to take measures to control its transmission. Early disease detection is crucial in the treatment process, and computer-based automatic detection systems have been developed to aid in this effort. These systems often rely on artificial intelligence (AI) approaches such as machine learning, neural networks, fuzzy systems, and deep learning to classify diseases. This study aimed to differentiate COVID-19 patients from others using self-categorizing classifiers and employing various AI methods. This study used two datasets: the blood test samples and radiography images. The best results for the blood test samples obtained from San Raphael Hospital, which include two classes of individuals, those with COVID-19 and those with non-COVID diseases, were achieved through the use of the Ensemble method (a combination of a neural network and two machines learning methods). The results showed that this approach for COVID-19 diagnosis is cost-effective and provides results in a shorter amount of time than other methods. The proposed model achieved an accuracy of 94.09% on the dataset used. Secondly, the radiographic images were divided into four classes: normal, viral pneumonia, ground glass opacity, and COVID-19 infection. These were used for segmentation and classification. The lung lobes were extracted from the images and then categorized into specific classes. We achieved an accuracy of 91.1% on the image dataset. Generally, this study highlights the potential of AI in detecting and managing COVID-19 and underscores the importance of continued research and development in this field.
翻訳日:2024-05-30 22:52:03 公開日:2024-05-28
# 接点交叉によって生じる小さな回避交差に対する二段階断熱遷移確率

Two-level adiabatic transition probability for small avoided crossings generated by tangential intersections ( http://arxiv.org/abs/2404.17777v2 )

ライセンス: Link先を確認
Kenta Higuchi, Takuya Watanabe, (参考訳) 本稿では,二つのパラメータ(断熱パラメータとエネルギーギャップパラメータ)がゼロとなる限界の下で,二段回避交差の遷移確率の漸近挙動について検討する。 これは、接する交差点によって回避された交差が生成され、非断熱的な体制に従う、我々の以前の作品の継続である。 主な結果は、遷移確率の漸近膨張だけでなく、いくつかの回避された交差と異なる消滅順序から生じる2パラメータ状態の共存によって引き起こされる量子干渉も解明する。

In this paper, the asymptotic behaviors of the transition probability for two-level avoided crossings are studied under the limit where two parameters (adiabatic parameter and energy gap parameter) tend to zero. This is a continuation of our previous works where avoided crossings are generated by tangential intersections and obey a non-adiabatic regime. The main results elucidate not only the asymptotic expansion of transition probability but also a quantum interference caused by several avoided crossings and a coexistence of two-parameter regimes arising from different vanishing orders.
翻訳日:2024-05-30 22:42:17 公開日:2024-05-28
# 交互ミラーのシンプレクティック解析

A Symplectic Analysis of Alternating Mirror Descent ( http://arxiv.org/abs/2405.03472v2 )

ライセンス: Link先を確認
Jonas Katona, Xiuyuan Wang, Andre Wibisono, (参考訳) 双線型ゼロサムゲームに対する交互ミラーD(Alternating Mirror Descent, AMD)アルゴリズムの挙動を理解することにより, シンプレクティック・オイラー法による連続時間ハミルトン流の離散化について検討する。 我々は、シンプレクティックオイラー法において、保存量である修正ハミルトニアン(MH)の存在と性質に重点を置いて、ハミルトン力学、リー代数、シンプレクティック数値積分器の結果を用いた分析フレームワークを提供する。 元のハミルトニアンが二次函数であるとき、MHを閉形式で計算し、それ以前に知られている他の保存量と一般的に異なることを示す。 AMD の平均イテレートの双対性ギャップは、改良された $\mathcal{O}(K^{1/5})$ total regret bound と $\mathcal{O}(K^{-4/5})$ $\mathcal{O}(K^{-4/5})$ $ である。 最後に、もし真であれば、AMDの完全後悔は$\mathcal{O}\left(K^{\varepsilon}\right)$、平均的なイテレートの双対性ギャップは$\mathcal{O}\left(K^{-1+\varepsilon}\right)$として、任意の$\varepsilon>0$に対して$\mathcal{O}\left(K^{-1+\varepsilon}\right)$であり、MHの収束条件によって$\varepsilon=0$を取ることができるという予想を提案する。

Motivated by understanding the behavior of the Alternating Mirror Descent (AMD) algorithm for bilinear zero-sum games, we study the discretization of continuous-time Hamiltonian flow via the symplectic Euler method. We provide a framework for analysis using results from Hamiltonian dynamics, Lie algebra, and symplectic numerical integrators, with an emphasis on the existence and properties of a conserved quantity, the modified Hamiltonian (MH), for the symplectic Euler method. We compute the MH in closed-form when the original Hamiltonian is a quadratic function, and show that it generally differs from the other conserved quantity known previously in that case. We derive new error bounds on the MH when truncated at orders in the stepsize in terms of the number of iterations, $K$, and use these bounds to show an improved $\mathcal{O}(K^{1/5})$ total regret bound and an $\mathcal{O}(K^{-4/5})$ duality gap of the average iterates for AMD. Finally, we propose a conjecture which, if true, would imply that the total regret for AMD scales as $\mathcal{O}\left(K^{\varepsilon}\right)$ and the duality gap of the average iterates as $\mathcal{O}\left(K^{-1+\varepsilon}\right)$ for any $\varepsilon>0$, and we can take $\varepsilon=0$ upon certain convergence conditions for the MH.
翻訳日:2024-05-30 22:42:17 公開日:2024-05-28
# 任意遅延下における不均一物体の非同期フェデレーション確率最適化

Asynchronous Federated Stochastic Optimization for Heterogeneous Objectives Under Arbitrary Delays ( http://arxiv.org/abs/2405.10123v2 )

ライセンス: Link先を確認
Charikleia Iakovidou, Kibaek Kim, (参考訳) フェデレートラーニング(FL)は、中央サーバの協調の下で、複数の場所("clients")に保持されたデータでモデルをセキュアにトレーニングするために提案されている。 FLアルゴリズムの性能を阻害する2つの大きな課題は、クライアントの階層化による長いトレーニング時間と、非IDなローカルデータ分布("client drift")下でのモデルの精度の低下である。 本研究では,非同期通信を利用して収束を高速化し,拡張性を向上するアルゴリズムであるAsynchronous Exact Averaging (AREA) を提案・解析し,クライアント更新頻度の変動によるクライアントのドリフトの補正にクライアントメモリを利用する。 さらに、AREAは、私たちの知る限り、遅延適応段階化を使わずに、任意に長い遅延の下で収束することが保証される最初の方法である。 i) 強凸で滑らかな関数に対して、漸近的にその大きさが反復数に関して使われる確率勾配の分散にのみ依存する誤差近傍に収束する。 (ii) 凸で非滑らかな関数の場合, 集中確率勾配法の収束率を, 最小(または最大)ではなく, 個々のクライアント更新頻度の平均に依存する定数因子に一致させる。 解析の結果,特にクライアント数の増加に伴い,ローカルデータが非IDである場合,AREAは最先端の手法よりも優れることが示された。

Federated learning (FL) was recently proposed to securely train models with data held over multiple locations ("clients") under the coordination of a central server. Two major challenges hindering the performance of FL algorithms are long training times caused by straggling clients, and a decline in model accuracy under non-iid local data distributions ("client drift"). In this work, we propose and analyze Asynchronous Exact Averaging (AREA), a new stochastic (sub)gradient algorithm that utilizes asynchronous communication to speed up convergence and enhance scalability, and employs client memory to correct the client drift caused by variations in client update frequencies. Moreover, AREA is, to the best of our knowledge, the first method that is guaranteed to converge under arbitrarily long delays, without the use of delay-adaptive stepsizes, and (i) for strongly convex, smooth functions, asymptotically converges to an error neighborhood whose size depends only on the variance of the stochastic gradients used with respect to the number of iterations, and (ii) for convex, non-smooth functions, matches the convergence rate of the centralized stochastic subgradient method up to a constant factor, which depends on the average of the individual client update frequencies instead of their minimum (or maximum). Our numerical results validate our theoretical analysis and indicate AREA outperforms state-of-the-art methods when local data are highly non-iid, especially as the number of clients grows.
翻訳日:2024-05-30 22:32:31 公開日:2024-05-28
# インフラストラクチャエンジニアリング: 研究エコシステムにおける過小評価された役割

Infrastructure Engineering: A Still Missing, Undervalued Role in the Research Ecosystem ( http://arxiv.org/abs/2405.10473v2 )

ライセンス: Link先を確認
Vanessa Sochat, (参考訳) 研究はますますソフトウェアに頼り、バイオインフォマティクス、高性能コンピューティング、物理学、機械学習、人工知能の原動力となっている。 研究対象となるソフトウェアや関連資産を直接的に開発するソフトウェア技術者であるリサーチソフトウェアエンジニアのために、かなりの進歩があったが、研究インフラストラクチャとイノベーション、すなわち、コンパイラと互換性ツールの開発、オーケストレーションとスケジューリングインフラストラクチャ、開発者環境、コンテナテクノロジ、ワークフローマネージャといった、研究インフラストラクチャとイノベーションの背後にある労働力にはほとんど関心が向けられていない。 クラウドコンピューティングのさまざまなモデルに向けて経済的なインセンティブが進み、両方の世界のベストを表す新しいパラダイムを開発するためには革新が必要であるため、「収束コンピューティング」と呼ばれる取り組みは、そのような役割の必要性は理想的ではなく、科学の継続的な成功に不可欠である。 非伝統的な職種に散在するスタッフは、この分野のいくつかの側面で作業する時間を見出しているが、それを支援するための大きな労働力の欠如とインセンティブが科学界を後退させてきた。 この記事では、この欠落したレイヤの重要性を強調し、インフラストラクチャエンジニアの役割の欠如が、相互運用性、ポータビリティ、そして科学の再現性において、いかに非効率になったかを例示します。 我々は、これらの技術に対して、個人が明示的に作業するためのリソースを割り当て、提供し、維持できないことは、我々の科学コミュニティの継続的な成功に最適でない未来をもたらす可能性があることを示唆する。

Research has become increasingly reliant on software, serving as the driving force behind bioinformatics, high performance computing, physics, machine learning and artificial intelligence, to name a few. While substantial progress has been made in advocating for the research software engineer, a kind of software engineer that typically works directly on software and associated assets that go into research, little attention has been placed on the workforce behind research infrastructure and innovation, namely compilers and compatibility tool development, orchestration and scheduling infrastructure, developer environments, container technologies, and workflow managers. As economic incentives are moving toward different models of cloud computing and innovating is required to develop new paradigms that represent the best of both worlds, an effort called "converged computing," the need for such a role is not just ideal, but essential for the continued success of science. While scattered staff in non-traditional roles have found time to work on some facets of this space, the lack of a larger workforce and incentive to support it has led to the scientific community falling behind. In this article we will highlight the importance of this missing layer, providing examples of how a missing role of infrastructure engineer has led to inefficiencies in the interoperability, portability, and reproducibility of science. We suggest that an inability to allocate, provide resources for, and sustain individuals to work explicitly on these technologies could lead to possible futures that are sub-optimal for the continued success of our scientific communities.
翻訳日:2024-05-30 22:32:31 公開日:2024-05-28
# 対話型協調計画獲得におけるマインドモデリング理論の限界

Limits of Theory of Mind Modelling in Dialogue-Based Collaborative Plan Acquisition ( http://arxiv.org/abs/2405.12621v2 )

ライセンス: Link先を確認
Matteo Bortoletto, Constantin Ruhdorfer, Adnen Abdessaied, Lei Shi, Andreas Bulling, (参考訳) 対話型協調計画獲得(CPA)に関する最近の研究は、非対称なスキルセットと知識を持つ設定において、心の理論(ToM)モデリングが不足した知識予測を改善することを示唆している。 ToMは効果的なコラボレーションのために重要とされているが、この新しいタスクに対する実際の影響は未解明のままである。 計画をグラフとして表現し、タスク固有の制約を活用することで、CPAのパフォーマンスが自分自身の不足した知識を予測するときにほぼ倍になるため、ToMモデリングによる改善は減少することを示す。 この現象は、既存のベースライン法を評価する際にも持続する。 CPAにおけるToMの関連性をよりよく理解するために,本研究では,ToM機能の有無によるモデルの性能比較を原則的に報告する。 異なるモデルとアブリゲーションにわたる結果は、学習されたToM機能は、ToMに知覚可能なリンクを伴わずに、データ内の遅延パターンを反映する可能性が高いことを一貫して示唆している。 この発見は、CPA以降におけるToMの役割のより深い理解と、計算協調エージェントにおける精神状態のモデリングと評価のための新しい方法を要求する。

Recent work on dialogue-based collaborative plan acquisition (CPA) has suggested that Theory of Mind (ToM) modelling can improve missing knowledge prediction in settings with asymmetric skill-sets and knowledge. Although ToM was claimed to be important for effective collaboration, its real impact on this novel task remains under-explored. By representing plans as graphs and by exploiting task-specific constraints we show that, as performance on CPA nearly doubles when predicting one's own missing knowledge, the improvements due to ToM modelling diminish. This phenomenon persists even when evaluating existing baseline methods. To better understand the relevance of ToM for CPA, we report a principled performance comparison of models with and without ToM features. Results across different models and ablations consistently suggest that learned ToM features are indeed more likely to reflect latent patterns in the data with no perceivable link to ToM. This finding calls for a deeper understanding of the role of ToM in CPA and beyond, as well as new methods for modelling and evaluating mental states in computational collaborative agents.
翻訳日:2024-05-30 22:22:47 公開日:2024-05-28
# Pytorch-Wildlife: 保全のための協調的なディープラーニングフレームワーク

Pytorch-Wildlife: A Collaborative Deep Learning Framework for Conservation ( http://arxiv.org/abs/2405.12930v2 )

ライセンス: Link先を確認
Andres Hernandez, Zhongqi Miao, Luisa Vargas, Rahul Dodhia, Juan Lavista, (参考訳) 様々な要因によって引き起こされた世界の生物多様性の急激な減少は、大規模な野生生物モニタリングの緊急の必要性を浮き彫りにしている。 これに対し、科学者は野生生物のモニタリングにおいて、データ処理のための自動化されたディープラーニング手法に目を向けた。 しかし、これらの高度な手法を現実のシナリオに適用することは、その複雑さと専門知識の必要性により、主に技術的な課題と学際的障壁のために困難である。 これらの課題に対処するために、PyTorch上に構築されたオープンソースのディープラーニングプラットフォームであるPytorch-Wildlifeを紹介します。 強力なAIモデルの作成、修正、共有のために設計されている。 このプラットフォームはユーザビリティとアクセシビリティを重視しており、技術的背景が限られている個人でもアクセス可能である。 また、機能拡張とさらなる開発を簡単にするためのモジュール化されたコードベースも提供する。 Pytorch-Wildlifeは直感的でユーザフレンドリなインターフェースを提供し、画像やビデオの動物検出と分類のために、ローカルインストールまたはHugging Faceを通じてアクセスすることができる。 現実世界の2つの応用として、Pytorch-Wildlifeは、アマゾン熱帯雨林での動物分類モデルの訓練や、ガラパゴス諸島での侵入性オポッサムの認識に利用されている。 Opossumモデルは98%の精度で、Amazonモデルはデータの90%で36匹の動物に対して92%の精度で認識する。 Pytorch-Wildlifeが進化するにつれて、環境問題に対処しながら、より多くの保全タスクを統合することを目指しています。 Pytorch-Wildlifeはhttps://github.com/microsoft/CameraTraps.comで公開されている。

The alarming decline in global biodiversity, driven by various factors, underscores the urgent need for large-scale wildlife monitoring. In response, scientists have turned to automated deep learning methods for data processing in wildlife monitoring. However, applying these advanced methods in real-world scenarios is challenging due to their complexity and the need for specialized knowledge, primarily because of technical challenges and interdisciplinary barriers. To address these challenges, we introduce Pytorch-Wildlife, an open-source deep learning platform built on PyTorch. It is designed for creating, modifying, and sharing powerful AI models. This platform emphasizes usability and accessibility, making it accessible to individuals with limited or no technical background. It also offers a modular codebase to simplify feature expansion and further development. Pytorch-Wildlife offers an intuitive, user-friendly interface, accessible through local installation or Hugging Face, for animal detection and classification in images and videos. As two real-world applications, Pytorch-Wildlife has been utilized to train animal classification models for species recognition in the Amazon Rainforest and for invasive opossum recognition in the Galapagos Islands. The Opossum model achieves 98% accuracy, and the Amazon model has 92% recognition accuracy for 36 animals in 90% of the data. As Pytorch-Wildlife evolves, we aim to integrate more conservation tasks, addressing various environmental challenges. Pytorch-Wildlife is available at https://github.com/microsoft/CameraTraps.
翻訳日:2024-05-30 22:22:47 公開日:2024-05-28
# FairLENS: 法執行音声認識における公正性の評価

FairLENS: Assessing Fairness in Law Enforcement Speech Recognition ( http://arxiv.org/abs/2405.13166v2 )

ライセンス: Link先を確認
Yicheng Wang, Mark Cusick, Mohamed Laila, Kate Puech, Zhengping Ji, Xia Hu, Michael Wilson, Noah Spitzer-Williams, Bryan Wheeler, Yasser Ibrahim, (参考訳) 自動音声認識(ASR)技術は強力なツールとなり、法執行のシナリオにおける効率性を高めている。 異なる音響環境における人口集団の公平性を確保するために、ASRエンジンは現実的な設定で様々な話者間でテストされなければならない。 しかし、信頼性のあるモデル間の公平性の違いを説明することは依然として困難である。 一方、ほとんどのパブリックなASRデータセットは満足のいく公正性評価を行うには不十分である。 この制限に対処するため、系統的な公平性評価フレームワークであるFairLENSを構築しました。 本研究では,異なるモデル間の公平さの相違を検証するための,新しい適応性評価手法を提案する。 また、複数のシナリオと人口統計次元をカバーする公平性評価データセットも収集した。 このフレームワークを活用することで、1つのオープンソースと11の商用利用可能な最先端のASRモデルに対して公平性の評価を行った。 以上の結果から,特定の実世界のシナリオに対してASRモデルを選択する際に,ユーザが情報選択を行うためのフェアネスガイドラインとして機能するモデルが,他のモデルよりも多くのバイアスを示すことが明らかとなった。 さらに、特定の人口集団に対するモデルバイアスについて検討し、音響領域の変化が新しいバイアスの出現につながることを観察した。

Automatic speech recognition (ASR) techniques have become powerful tools, enhancing efficiency in law enforcement scenarios. To ensure fairness for demographic groups in different acoustic environments, ASR engines must be tested across a variety of speakers in realistic settings. However, describing the fairness discrepancies between models with confidence remains a challenge. Meanwhile, most public ASR datasets are insufficient to perform a satisfying fairness evaluation. To address the limitations, we built FairLENS - a systematic fairness evaluation framework. We propose a novel and adaptable evaluation method to examine the fairness disparity between different models. We also collected a fairness evaluation dataset covering multiple scenarios and demographic dimensions. Leveraging this framework, we conducted fairness assessments on 1 open-source and 11 commercially available state-of-the-art ASR models. Our results reveal that certain models exhibit more biases than others, serving as a fairness guideline for users to make informed choices when selecting ASR models for a given real-world scenario. We further explored model biases towards specific demographic groups and observed that shifts in the acoustic domain can lead to the emergence of new biases.
翻訳日:2024-05-30 22:22:47 公開日:2024-05-28
# CamemBERT-bioを用いた臨床物語の多目的表現

Multi-objective Representation for Numbers in Clinical Narratives Using CamemBERT-bio ( http://arxiv.org/abs/2405.18448v1 )

ライセンス: Link先を確認
Boammani Aser Lompo, Thanh-Dung Le, (参考訳) 本研究では,CamemBERT-bioを用いて,医学文献から抽出した数値を7つの異なる生理カテゴリーに分類することを目的とした。 従来の研究は、トランスフォーマーベースのモデルが従来のNLPモデルと同等に機能しない可能性を示唆していた。 CamemBERT-bioのパフォーマンスを向上させるために,キーワード埋め込みをモデルに組み込むことと,テキストからすべての数値データを排除して数に依存しない戦略を採用するという,2つの大きなイノベーションを紹介した。 ラベル埋め込み手法の実装は、注意機構を洗練させ、"数値盲点"データセットを使用する技術は、文脈中心の学習を促進することを目的としている。 我々の研究のもう1つの重要な要素は、抽出された数値データの臨界度を決定することである。 これを実現するために、確立された標準範囲内に値が該当するかどうかを検証するための簡単なアプローチを利用した。 F1スコア0.89の従来法を上回り,CamemBERT-bioの有効性が著しく向上した。 これは従来のアプローチの0.73ドルF_1$スコアよりも20倍、最先端のアプローチの0.82ドルF_1$スコアよりも9倍以上増加することを意味する。 トレーニングデータセットが小さく、バランスの取れていないにもかかわらず、これらすべてが達成された。

This research aims to classify numerical values extracted from medical documents across seven distinct physiological categories, employing CamemBERT-bio. Previous studies suggested that transformer-based models might not perform as well as traditional NLP models in such tasks. To enhance CamemBERT-bio's performances, we introduce two main innovations: integrating keyword embeddings into the model and adopting a number-agnostic strategy by excluding all numerical data from the text. The implementation of label embedding techniques refines the attention mechanisms, while the technique of using a `numerical-blind' dataset aims to bolster context-centric learning. Another key component of our research is determining the criticality of extracted numerical data. To achieve this, we utilized a simple approach that involves verifying if the value falls within the established standard ranges. Our findings are encouraging, showing substantial improvements in the effectiveness of CamemBERT-bio, surpassing conventional methods with an F1 score of 0.89. This represents an over 20\% increase over the 0.73 $F_1$ score of traditional approaches and an over 9\% increase over the 0.82 $F_1$ score of state-of-the-art approaches. All this was achieved despite using small and imbalanced training datasets.
翻訳日:2024-05-30 22:22:47 公開日:2024-05-28
# アダプティブ・マルチスケール網膜診断:トランスファーラーニングとシームズネットワークを活用した総合的ファンドス多値検出のためのハイブリッドトリオモデルアプローチ

Adaptive Multiscale Retinal Diagnosis: A Hybrid Trio-Model Approach for Comprehensive Fundus Multi-Disease Detection Leveraging Transfer Learning and Siamese Networks ( http://arxiv.org/abs/2405.18449v1 )

ライセンス: Link先を確認
Yavuz Selim Inan, (参考訳) WHOは、世界中の22億人以上がメディアヘイズ、緑内障、ドルーゼンなどの視覚障害に苦しんでいると宣言した。 少なくとも10億件の症例は予防または治療が成功していた可能性があるが、貧困、専門医の欠如、眼科医による不正確な眼底診断、あるいはまれな疾患の存在のために未治療のままである。 これを解決するために,12種類の共通眼疾患と稀眼疾患を正確に診断するハイブリッドトリオネットワークモデルアルゴリズムを開発した。 このアルゴリズムは3,200基の画像のRFMiDデータセットとBinary Relevance Methodを用いて、病気を別々に検出し、拡張性を確保し、誤った相関を避ける。 それぞれの検出器は、性能を最適化するために微調整されたハイパーパラメータを組み込んでおり、古典的な伝達学習CNNモデル、二段階CNNモデル、シームズネットワークの3つの特徴成分から構成されていた。 診断は、このTrio-Model with Ensembled Machine Learningアルゴリズムから抽出された特徴を用いて行われた。 提案したモデルの平均精度は97%、AUCスコアは0.96である。 過去のベンチマークと比較すると、F1スコアの10%以上の増加は、ほとんどの疾患で見られた。 さらに、シームズ・ネットワークを用いて、過去の研究では信頼性が低いために予測できなかった光ディスク口蓋裂などの疾患の予測に成功している。 本発明の診断ツールは、一般的な疾患と稀な疾患の両方の早期発見をグローバル化するための、安定的で適応的で、費用効果があり、効率的で、アクセスしやすく、高速なソリューションを提供する。

WHO has declared that more than 2.2 billion people worldwide are suffering from visual disorders, such as media haze, glaucoma, and drusen. At least 1 billion of these cases could have been either prevented or successfully treated, yet they remain unaddressed due to poverty, a lack of specialists, inaccurate ocular fundus diagnoses by ophthalmologists, or the presence of a rare disease. To address this, the research has developed the Hybrid Trio-Network Model Algorithm for accurately diagnosing 12 distinct common and rare eye diseases. This algorithm utilized the RFMiD dataset of 3,200 fundus images and the Binary Relevance Method to detect diseases separately, ensuring expandability and avoiding incorrect correlations. Each detector, incorporating finely tuned hyperparameters to optimize performance, consisted of three feature components: A classical transfer learning CNN model, a two-stage CNN model, and a Siamese Network. The diagnosis was made using features extracted through this Trio-Model with Ensembled Machine Learning algorithms. The proposed model achieved an average accuracy of 97% and an AUC score of 0.96. Compared to past benchmark studies, an increase of over 10% in the F1-score was observed for most diseases. Furthermore, using the Siamese Network, the model successfully made predictions in diseases like optic disc pallor, which past studies failed to predict due to low confidence. This diagnostic tool presents a stable, adaptive, cost-effective, efficient, accessible, and fast solution for globalizing early detection of both common and rare diseases.
翻訳日:2024-05-30 22:22:47 公開日:2024-05-28
# スペクトルモードマッチングによる普遍量子周波数コム測定

Universal quantum frequency comb measurements by spectral mode-matching ( http://arxiv.org/abs/2405.18454v1 )

ライセンス: Link先を確認
Bakhao Dioum, Virginia D'Auria, Alessandro Zavatta, Olivier Pfister, Giuseppe Patera, (参考訳) マルチモード干渉計の周波数コムは、フィールド符号化された量子情報に対して例外的なスケーラビリティを提供する。 しかし、安定場検出法であるホモダイン検出は、いくつかのスペクトル二次構造(およびLOに関するその対称性)が到達できないため、コム全体の量子情報にアクセスすることができない。 ここでは,光量子コンピューティングに必要であり,パルス型LOを用いたホモダイン検出では不可能な,多モード量子光学源の任意の1ショット計測を行うための,最初の一般的なアプローチを提案する。 このアプローチでは、メモリ効果を伴う干渉計と解釈できるスペクトルモードマッチングを用いる。 完全形式を導出し,マイクロキャビティアレイによる実装を提案する。

The frequency comb of a multimode interferometer offers exceptional scalability potential for field-encoded quantum information. However, the staple field detection method, homodyne detection, cannot access quantum information in the whole comb because some spectral quadratures (and their asymmetries with respect to the LO) are out of reach. We present here the first general approach to make arbitrary, one-shot measurements of a multimode quantum optical source, something that is required for photonic quantum computing and is not possible when using homodyne detection with a pulse-shaped LO. This approach uses spectral mode-matching, which can be understood as interferometry with a memory effect. We derive a complete formalism and propose an implementation by microcavity arrays.
翻訳日:2024-05-30 22:22:47 公開日:2024-05-28
# 反復ガウス過程における過パラメータ最適化のための線形系解法の改良

Improving Linear System Solvers for Hyperparameter Optimisation in Iterative Gaussian Processes ( http://arxiv.org/abs/2405.18457v1 )

ライセンス: Link先を確認
Jihao Andreas Lin, Shreyas Padhy, Bruno Mlodozeniec, Javier Antorán, José Miguel Hernández-Lobato, (参考訳) 非常に大きなデータセットへのハイパーパラメータ最適化のスケーリングは、ガウスのプロセスコミュニティでは未解決の問題である。 本稿では, 共役勾配, 交互射影, 確率勾配勾配などの線形系解法を用いて, 限界次数勾配を推定する反復法について述べる。 解決者間で適用可能な3つの重要な改善点について論じる。 (i)パスワイズ勾配推定器で、必要な解法反復数を減らし、予測を行う計算コストを補正する。 (II) 先段からの解を用いた温かい開始線形系解法は、無視バイアスのコストでより高速な解法収束をもたらす。 3) 線形系解法は, 計算予算が限られており, 温暖化開始と相乗効果があり, 解法の進行が複数の余分な確率ステップで蓄積される。 これらのテクニックは、トレランスを解決した場合に最大72\times$のスピードアップを提供し、早期停止時には平均残留ノルムを最大7\times$まで下げる。

Scaling hyperparameter optimisation to very large datasets remains an open problem in the Gaussian process community. This paper focuses on iterative methods, which use linear system solvers, like conjugate gradients, alternating projections or stochastic gradient descent, to construct an estimate of the marginal likelihood gradient. We discuss three key improvements which are applicable across solvers: (i) a pathwise gradient estimator, which reduces the required number of solver iterations and amortises the computational cost of making predictions, (ii) warm starting linear system solvers with the solution from the previous step, which leads to faster solver convergence at the cost of negligible bias, (iii) early stopping linear system solvers after a limited computational budget, which synergises with warm starting, allowing solver progress to accumulate over multiple marginal likelihood steps. These techniques provide speed-ups of up to $72\times$ when solving to tolerance, and decrease the average residual norm by up to $7\times$ when stopping early.
翻訳日:2024-05-30 22:22:47 公開日:2024-05-28
# グレーボックス深部フォトニックニューラルネットワークのトレーニングのための非対称推定器

Asymmetrical estimator for training grey-box deep photonic neural networks ( http://arxiv.org/abs/2405.18458v1 )

ライセンス: Link先を確認
Yizhi Wang, Minjia Chen, Chunhui Yao, Jie Ma, Ting Yan, Richard Penty, Qixiang Cheng, (参考訳) 物理ニューラルネットワーク(PNN)は、その高帯域幅、伝搬内アナログ処理のため、ニューラルネットワークアクセラレーションの新たなパラダイムである。 推論に対するPNNのアドバンテージにもかかわらず、トレーニングは依然として課題である。 物理変換の不完全な情報は、バックプロパゲーション(BP)からの従来の勾配に基づく更新の失敗を意味する。 本稿では、PNN構造をグレーボックスとして扱う非対称トレーニング(AT)法を提案する。 ATは、物理的な制御-変換マッピングに関する情報を必要としない、深層ニューラルネットワーク構造の最後の層出力とニューロントポロジカル接続のみを知りながら、トレーニングを実行する。 我々は、未校正フォトニック集積回路(PIC)により実装された深層グレーボックスPNNに対してAT法を実験的に実証し、アイリスフラワーの分類精度を改善し、乱数推定からほぼ理論的最大値への修正MNIST手書き桁を修正した。 また、MNIST, fashion-MNIST, Kuzushiji-MNISTなど、さまざまなデータセットに対するAT over BPの連続的な性能向上も紹介した。 AT法は、ハードウェアのオーバーヘッドを最小限に抑え、計算のオーバーヘッドを減らし、物理計算の利点を十分に探求するための頑丈な軽量な訓練として成功した。

Physical neural networks (PNNs) are emerging paradigms for neural network acceleration due to their high-bandwidth, in-propagation analogue processing. Despite the advantages of PNN for inference, training remains a challenge. The imperfect information of the physical transformation means the failure of conventional gradient-based updates from backpropagation (BP). Here, we present the asymmetrical training (AT) method, which treats the PNN structure as a grey box. AT performs training while only knowing the last layer output and neuron topological connectivity of a deep neural network structure, not requiring information about the physical control-transformation mapping. We experimentally demonstrated the AT method on deep grey-box PNNs implemented by uncalibrated photonic integrated circuits (PICs), improving the classification accuracy of Iris flower and modified MNIST hand-written digits from random guessing to near theoretical maximum. We also showcased the consistently enhanced performance of AT over BP for different datasets, including MNIST, fashion-MNIST, and Kuzushiji-MNIST. The AT method demonstrated successful training with minimal hardware overhead and reduced computational overhead, serving as a robust light-weight training alternative to fully explore the advantages of physical computation.
翻訳日:2024-05-30 22:22:47 公開日:2024-05-28
# 空間依存対策の情報理論的ルーツの提案

Probing the Information Theoretical Roots of Spatial Dependence Measures ( http://arxiv.org/abs/2405.18459v1 )

ライセンス: Link先を確認
Zhangyu Wang, Krzysztof Janowicz, Gengchen Mai, Ivan Majic, (参考訳) 直感的には、空間依存の測度とエントロピーの情報理論測度との間には関係がある。 例えば、空間データサンプルが平均的に、期待される情報よりも少ないことを述べ、空間データが特別な理由を直感的に説明できる。 同様に、圧縮が容易な空間データ、例えばリモートセンシング画像は、空間的自己相関も顕著である。 情報理論の広く使われている言語における空間情報理論の(非常に特異的な)コア概念を定式化することで、それらの違いと類似性に関する新たな視点が開かれ、また、より広範なAI/MLコミュニティとの学際的なコラボレーションを促進する。 しかし、この直感的な関係は形式化と一般化が難しいため、以前の研究は主にランドスケープパターンを記述する実験結果に頼っている。 本研究では,空間的自己相関(特にモランのI)の情報理論のルーツを,自己情報レンズ(補題としても知られる)を通して探求し,形式的証明と実験の両方を提供する。

Intuitively, there is a relation between measures of spatial dependence and information theoretical measures of entropy. For instance, we can provide an intuition of why spatial data is special by stating that, on average, spatial data samples contain less than expected information. Similarly, spatial data, e.g., remotely sensed imagery, that is easy to compress is also likely to show significant spatial autocorrelation. Formulating our (highly specific) core concepts of spatial information theory in the widely used language of information theory opens new perspectives on their differences and similarities and also fosters cross-disciplinary collaboration, e.g., with the broader AI/ML communities. Interestingly, however, this intuitive relation is challenging to formalize and generalize, leading prior work to rely mostly on experimental results, e.g., for describing landscape patterns. In this work, we will explore the information theoretical roots of spatial autocorrelation, more specifically Moran's I, through the lens of self-information (also known as surprisal) and provide both formal proofs and experiments.
翻訳日:2024-05-30 22:22:47 公開日:2024-05-28
# アルゴリズムが不当なまま残る理由:アルゴリズム活動にまつわる電力構造

Why Algorithms Remain Unjust: Power Structures Surrounding Algorithmic Activity ( http://arxiv.org/abs/2405.18461v1 )

ライセンス: Link先を確認
Andrew Balch, (参考訳) アルゴリズムは私たちの社会生活においてますます重要な役割を果たす。 残念なことに、彼らは社会的な不正を常習することが多い。 これらのアルゴリズムの不正に対処する一般的な手段は、アルゴリズムの改革である、より公平で説明責任があり透明なアルゴリズム自体を微調整することである。 しかし、批判的アルゴリズム研究の新たな分野は、アルゴリズムを取り巻くパワー構造を無視しているため、改革派アプローチがアルゴリズムの不正を抑えることに失敗したことを示している。 私は、このパワー構造を分析するために、重要なアルゴリズム研究からの電話を受け、Erik Olin Wright氏によって開発されたフレームワークを使用して、アルゴリズムが社会内で研究、開発、訓練、展開される方法であるアルゴリズム活動を取り巻くパワーの構成を調べます。 アルゴリズム活動が平等で非民主的で、持続不可能な理由は、それを形作る権力構造が、社会的エンパワーメントというよりも経済的なエンパワーメントの1つであるからである、と私は主張する。 アルゴリズム活動が社会的に公正であるためには、アルゴリズムの反対側にいる人々に力を与えるために、このパワー構成を変える必要があります。 この目的のために、私はアルゴリズム活動の文脈におけるライトの共生的、間質的、ラプチュラルな変換と、アルゴリズムを使って社会問題に対処する仮説研究プロジェクトでどのように適用されるかを探る。 私は、社会的にただのアルゴリズム活動というビジョンで締めくくると、将来的な作業は、提案された変革を統合し、社会的エンパワーメントのための新しいメカニズムを開発することを目指している。

Algorithms play an increasingly-significant role in our social lives. Unfortunately, they often perpetuate social injustices while doing so. The popular means of addressing these algorithmic injustices has been through algorithmic reformism: fine-tuning the algorithm itself to be more fair, accountable, and transparent. While commendable, the emerging discipline of critical algorithm studies shows that reformist approaches have failed to curtail algorithmic injustice because they ignore the power structure surrounding algorithms. Heeding calls from critical algorithm studies to analyze this power structure, I employ a framework developed by Erik Olin Wright to examine the configuration of power surrounding Algorithmic Activity: the ways in which algorithms are researched, developed, trained, and deployed within society. I argue that the reason Algorithmic Activity is unequal, undemocratic, and unsustainable is that the power structure shaping it is one of economic empowerment rather than social empowerment. For Algorithmic Activity to be socially just, we need to transform this power configuration to empower the people at the other end of an algorithm. To this end, I explore Wright's symbiotic, interstitial, and raptural transformations in the context of Algorithmic Activity, as well as how they may be applied in a hypothetical research project that uses algorithms to address a social issue. I conclude with my vision for socially just Algorithmic Activity, asking that future work strives to integrate the proposed transformations and develop new mechanisms for social empowerment.
翻訳日:2024-05-30 22:13:00 公開日:2024-05-28
# 標準模型物理を超えるシンボリック回帰

Symbolic Regression for Beyond the Standard Model Physics ( http://arxiv.org/abs/2405.18471v1 )

ライセンス: Link先を確認
Shehu AbdusSalam, Steve Abel, Miguel Crispim Romao, (参考訳) 標準モデル物理学を超えて研究するための強力なツールとして,記号回帰を提案する。 ベンチマークモデルとして、GUTスケールで定義された4次元パラメータ空間を持つ、いわゆる制約最小対称標準モデルを考える。 本研究では、ヒッグス質量、ミューオンの異常磁気モーメントへの寄与、コールドダークマターの相対密度という理論のパラメータから、3つの低エネルギー観測対象を再現する分析式を提案する。 提案手法の威力を示すために,グローバル適合解析における記号表現を用いて,従来の手法と比較して極めて高速に得られるパラメータの後方確率密度を導出する。

We propose symbolic regression as a powerful tool for studying Beyond the Standard Model physics. As a benchmark model, we consider the so-called Constrained Minimal Supersymmetric Standard Model, which has a four-dimensional parameter space defined at the GUT scale. We provide a set of analytical expressions that reproduce three low-energy observables of interest in terms of the parameters of the theory: the Higgs mass, the contribution to the anomalous magnetic moment of the muon, and the cold dark matter relic density. To demonstrate the power of the approach, we employ the symbolic expressions in a global fits analysis to derive the posterior probability densities of the parameters, which are obtained extremely rapidly in comparison with conventional methods.
翻訳日:2024-05-30 22:13:00 公開日:2024-05-28
# 有限温度ライドバーグアレイ:量子相と絡み合い特性

Finite-temperature Rydberg arrays: quantum phases and entanglement characterization ( http://arxiv.org/abs/2405.18477v1 )

ライセンス: Link先を確認
Nora Reinić, Daniel Jaschke, Darvin Wanisch, Pietro Silvi, Simone Montangero, (参考訳) アナログ量子シミュレータの最も顕著なプラットフォームの一つとして、Rydberg原子配列は量子相と遷移を探索するための有望なツールである。 1次元Rydberg系の基底状態特性は、既に徹底的に検討されているが、解析は有限温度シナリオに向けて拡張されている。 本研究では, 熱平衡における量子多体状態を構築するためのテンソルネットワークに基づく数値ツールボックスを開発し, 古典的相関や絡み合いモノトンを探索する。 有限系サイズの熱ゆらぎにより連続的に収縮する秩序相を観察した。 さらに, 半系分岐の絡み合いと絡み合いの負性性を調べることにより, 絡み合いの共形スケーリング則が0温度臨界点から低温状態へ広がることを数値的に確認する。

As one of the most prominent platforms for analog quantum simulators, Rydberg atom arrays are a promising tool for exploring quantum phases and transitions. While the ground state properties of one-dimensional Rydberg systems are already thoroughly examined, we extend the analysis towards the finite-temperature scenario. For this purpose, we develop a tensor network-based numerical toolbox for constructing the quantum many-body states at thermal equilibrium, which we exploit to probe classical correlations as well as entanglement monotones. We clearly observe ordered phases continuously shrinking due to thermal fluctuations at finite system sizes. Moreover, by examining the entanglement of formation and entanglement negativity of a half-system bipartition, we numerically confirm that a conformal scaling law of entanglement extends from the zero-temperature critical points into the low-temperature regime.
翻訳日:2024-05-30 22:13:00 公開日:2024-05-28
# サブ波長原子配列における集合的基底状態冷却

Collectively enhanced ground-state cooling in subwavelength atomic arrays ( http://arxiv.org/abs/2405.18482v1 )

ライセンス: Link先を確認
Oriol Rubies-Bigorda, Raphael Holzinger, Ana Asenjo-Garcia, Oriol Romero-Isart, Helmut Ritsch, Stefan Ostermann, Carlos Gonzalez-Ballestero, Susanne F. Yelin, Cosimo C. Rusconi, (参考訳) 自由空間におけるサブ波長原子配列は、創発的な多体量子現象を探索する主要なプラットフォームになりつつある。 これらのアレイは強い光誘起双極子-双極子相互作用を特徴とし、狭い線幅を特徴とするサブラジアント集団共鳴をもたらす。 本研究では、これらの狭い集団共鳴を利用したサブ波長アレイに閉じ込められた原子のサイドバンド冷却方式を提案する。 我々は、原子の内的自由度を断熱的に除去し、原子運動の効果的なマスター方程式を導出し、その予測を全系の数値シミュレーションで検証する。 この結果から, サブラジアント共鳴により, 原子のアンサンブルが, 双極子相互作用を伴わない温度に冷却できることが示唆された。 注目すべきは、個々の原子遷移がそうでない場合でも、狭い集団共鳴をサイドバンド分解することができることである。 このようなシナリオでは、光誘起双極子-双極子相互作用により、基底状態の冷却が実現可能である。 このアプローチは、エミッターの密集したアンサンブルに基づく将来の量子技術に利用することができ、運動制御の強化のために多体共生崩壊を利用するための道を開くことができる。

Subwavelength atomic arrays in free space are becoming a leading platform for exploring emergent many-body quantum phenomena. These arrays feature strong light-induced dipole-dipole interactions, resulting in subradiant collective resonances characterized by narrowed linewidths. In this work, we present a sideband cooling scheme for atoms trapped in subwavelength arrays that utilizes these narrow collective resonances. We derive an effective master equation for the atomic motion by adiabatically eliminating the internal degrees of freedom of the atoms, and validate its prediction with numerical simulations of the full system. Our results demonstrate that subradiant resonances enable the cooling of ensembles of atoms to temperatures lower than those achievable without dipole interactions, provided the atoms have different trap frequencies. Remarkably, narrow collective resonances can be sideband-resolved even when the individual atomic transition is not. In such scenarios, ground state cooling becomes feasible solely due to light-induced dipole-dipole interactions. This approach could be utilized for future quantum technologies based on dense ensembles of emitters, and paves the way towards harnessing many-body cooperative decay for enhanced motional control.
翻訳日:2024-05-30 22:13:00 公開日:2024-05-28
# オープンドメインテキスト駆動型マルチパーソン運動合成に向けて

Towards Open Domain Text-Driven Synthesis of Multi-Person Motions ( http://arxiv.org/abs/2405.18483v1 )

ライセンス: Link先を確認
Mengyi Shan, Lu Dong, Yutao Han, Yuan Yao, Tao Liu, Ifeoma Nwogu, Guo-Jun Qi, Mitch Hill, (参考訳) この研究は、テキスト記述から複数の人間の自然な、多様な集団の動きを生成することを目的としている。 シングル・パーソン・テキスト・トゥ・モーション・ジェネレーションは広く研究されているが、利用可能なデータセットが欠如しているため、ワン・ツー・モーション・プロンプトから1つか2つ以上の被験者の動作を合成することは依然として困難である。 本研究では,大規模な画像やビデオからのポーズ情報を推定することにより,人間のポーズと動きのデータセットをキュレートする。 我々のモデルはトランスフォーマーベースの拡散フレームワークを使用しており、複数の主題やフレームを持つ複数のデータセットに対応しています。 実験では,複数人物の静的ポーズの生成と複数人物の動作シーケンスの生成の両方を探索する。 我々の知る限り、本手法は、多種多様なテキストプロンプトから多目的運動列を多種多様な多様性と忠実度で生成する最初の方法である。

This work aims to generate natural and diverse group motions of multiple humans from textual descriptions. While single-person text-to-motion generation is extensively studied, it remains challenging to synthesize motions for more than one or two subjects from in-the-wild prompts, mainly due to the lack of available datasets. In this work, we curate human pose and motion datasets by estimating pose information from large-scale image and video datasets. Our models use a transformer-based diffusion framework that accommodates multiple datasets with any number of subjects or frames. Experiments explore both generation of multi-person static poses and generation of multi-person motion sequences. To our knowledge, our method is the first to generate multi-subject motion sequences with high diversity and fidelity from a large variety of textual prompts.
翻訳日:2024-05-30 22:13:00 公開日:2024-05-28
# 最小絡み合った典型的な熱状態を用いた分光と複素時間相関

Spectroscopy and complex-time correlations using minimally entangled typical thermal states ( http://arxiv.org/abs/2405.18484v1 )

ライセンス: Link先を確認
Zhenjiu Wang, Paul McClarty, Dobromila Dankova, Andreas Honecker, Alexander Wietek, (参考訳) テンソルネットワーク状態は強い相関物理学の側面を捉えて大きな成功を収めた。 しかし,非零温度での動的相関器の取得は,これらの手法を用いても一般に困難である。 本稿では,最小絡み合った典型的な熱状態(METTS)を用いた相関器の計算方法を提案する。 本手法は,物理演算子の動的相関を実時間で直接計算するが,複素時間平面上で相関が評価される拡張を提案する。 虚時成分は絡み合い成長の速度を束縛し、より大きなシステムサイズの研究を可能にする計算困難を強く緩和する。 物理相関器を抽出するには、純粋にリアルタイムな進化の限界を取る必要がある。 私たちはこの情報を得るための2つのルートを提示します。 (i)複素時間における解析相関関数と確率論的解析継続法を組み合わせることにより、実時間限界を求める。 (2) 数値解析継続の努力を必要とせず, 漸近的に所望の相関関数を定量的にキャプチャするエルミチアン相関関数。 これらの数値的手法は、2次元のスピン1/半の相互作用モデルであるシャストリー・サザーランドモデルの有限温度ダイナミクスを捉える。

Tensor network states have enjoyed great success at capturing aspects of strong correlation physics. However, obtaining dynamical correlators at non-zero temperatures is generically hard even using these methods. Here, we introduce a practical approach to computing such correlators using minimally entangled typical thermal states (METTS). While our primary method directly computes dynamical correlators of physical operators in real time, we propose extensions where correlations are evaluated in the complex-time plane. The imaginary time component bounds the rate of entanglement growth and strongly alleviates the computational difficulty allowing the study of larger system sizes. To extract the physical correlator one must take the limit of purely real-time evolution. We present two routes to obtaining this information (i) via an analytic correlation function in complex time combined with a stochastic analytic continuation method to obtain the real-time limit and (ii) a hermitian correlation function that asymptotically captures the desired correlation function quantitatively without requiring effort of numerical analytic continuation. We show that these numerical techniques capture the finite-temperature dynamics of the Shastry-Sutherland model - a model of interacting spin one-half in two dimensions.
翻訳日:2024-05-30 22:13:00 公開日:2024-05-28
# 衛星画像における火山活動の異常検出

Anomaly detection for the identification of volcanic unrest in satellite imagery ( http://arxiv.org/abs/2405.18487v1 )

ライセンス: Link先を確認
Robert Gabriel Popescu, Nantheera Anantrasirichai, Juliet Biggs, (参考訳) 衛星画像は噴火前に火山の変形を検出する可能性があるが、大量の画像が日常的に取得される一方で、火山の変形イベントを含むのはごくわずかである。 手動検査はこれらの異常を見逃しかねず、教師付き学習でモデル化された自動システムは適切にラベル付けされたデータセットを必要とする。 これらの課題に対処するために, 衛星データにおける教師なし深層学習を用いて, 火山変形を異常として識別する方法について検討した。 我々の検出器はパッチ分布モデリング(PaDiM)に基づいており、検出性能は重み付けされた距離で向上し、より深い層の特徴をより重要視する。 さらに,ノイズや不完全データを扱うための前処理手法を提案する。 最終フレームワークは, 変形特性が異なる5つの火山で試験し, その性能を火山変形検出の教師付き学習法と比較した。

Satellite images have the potential to detect volcanic deformation prior to eruptions, but while a vast number of images are routinely acquired, only a small percentage contain volcanic deformation events. Manual inspection could miss these anomalies, and an automatic system modelled with supervised learning requires suitably labelled datasets. To tackle these issues, this paper explores the use of unsupervised deep learning on satellite data for the purpose of identifying volcanic deformation as anomalies. Our detector is based on Patch Distribution Modeling (PaDiM), and the detection performance is enhanced with a weighted distance, assigning greater importance to features from deeper layers. Additionally, we propose a preprocessing approach to handle noisy and incomplete data points. The final framework was tested with five volcanoes, which have different deformation characteristics and its performance was compared against the supervised learning method for volcanic deformation detection.
翻訳日:2024-05-30 22:13:00 公開日:2024-05-28
# 基底状態特性の予測:定数サンプル複雑度とディープラーニングアルゴリズム

Predicting Ground State Properties: Constant Sample Complexity and Deep Learning Algorithms ( http://arxiv.org/abs/2405.18489v1 )

ライセンス: Link先を確認
Marc Wanner, Laura Lewis, Chiranjib Bhattacharyya, Devdatt Dubhashi, Alexandru Gheorghiu, (参考訳) 量子多体物理学における基本的な問題は、局所ハミルトニアンの基底状態を見つけることである。 最近の多くの研究は、基底状態の学習に証明可能な効率的な機械学習(ML)アルゴリズムを提供した。 具体的には、[Huang et al Science 2022] は、同じ状態のハミルトンからサンプリングされたデータポイントに対して、$n$-qubitのギャップを持つ局所ハミルトン$H$の基底状態の学習方法を導入した。 その後、[Lewis et al Nature Communications 2024] によって$n$-qubit 系の幾何が知られているとき、$\mathcal{O}(\log n)$サンプルに改良された。 本研究では, 基底状態特性を学習するためのシステムサイズ$n$とは無関係に, 一定のサンプル複雑性を実現するための2つのアプローチを提案する。 我々の最初のアルゴリズムは、Lewis et al が使用するMLモデルの簡単な修正から成り、前もって知られていた利害関係に適用される。 我々の第2のアルゴリズムは、たとえその特性の説明がわからないとしても適用され、ディープニューラルネットワークモデルである。 ニューラルネットワークの性能を示す実験結果が実証されているが、我々の知る限り、これは基底状態特性を予測するニューラルネットワークモデルに束縛された初めての厳密なサンプル複雑性である。 また,従来の結果と比較して,提案手法のスケーリング改善を確認する数値実験を行った。

A fundamental problem in quantum many-body physics is that of finding ground states of local Hamiltonians. A number of recent works gave provably efficient machine learning (ML) algorithms for learning ground states. Specifically, [Huang et al. Science 2022], introduced an approach for learning properties of the ground state of an $n$-qubit gapped local Hamiltonian $H$ from only $n^{\mathcal{O}(1)}$ data points sampled from Hamiltonians in the same phase of matter. This was subsequently improved by [Lewis et al. Nature Communications 2024], to $\mathcal{O}(\log n)$ samples when the geometry of the $n$-qubit system is known. In this work, we introduce two approaches that achieve a constant sample complexity, independent of system size $n$, for learning ground state properties. Our first algorithm consists of a simple modification of the ML model used by Lewis et al. and applies to a property of interest known beforehand. Our second algorithm, which applies even if a description of the property is not known, is a deep neural network model. While empirical results showing the performance of neural networks have been demonstrated, to our knowledge, this is the first rigorous sample complexity bound on a neural network model for predicting ground state properties. We also perform numerical experiments that confirm the improved scaling of our approach compared to earlier results.
翻訳日:2024-05-30 22:13:00 公開日:2024-05-28
# LLMと記憶:著作権コンプライアンスの品質と特異性について

LLMs and Memorization: On Quality and Specificity of Copyright Compliance ( http://arxiv.org/abs/2405.18492v1 )

ライセンス: Link先を確認
Felix B Mueller, Rebekka Görge, Anna K Bernzen, Janna C Pirk, Maximilian Poretschkin, (参考訳) 大規模言語モデル(LLM)のメモリ化が懸念されている。 LLMは、著作権のある作品を含むトレーニングデータの一部を容易に再現できることが示されている。 これは、欧州AI法と同様に、既存の著作権法に違反している可能性があるため、解決すべき重要な問題である。 本研究では,欧州法を例に,LLMにおける著作権侵害の可能性を定量化するための体系的な分析法を提案する。 従来の研究と異なり、現実的なエンドユーザーシナリオにおける命令精細モデルの評価を行う。 我々の分析は160文字のしきい値に基づいており、ドイツ著作権サービス提供法とファジィテキストマッチングアルゴリズムから借りている。 著作権及びパブリックドメインデータのモデル行動を比較することにより、著作権侵害対策の特異性を分析する。 本研究では,保護されたテキスト(拒絶や幻覚など)を生成する代わりに,行動モデルがどのような行動を示すかを検討するとともに,これらの行動に関する最初の法的評価を行う。 著作権の遵守, 明細性, 適切な拒絶には, 人気のLCM間で大きな違いがあることが判明した。 Alpaca、GPT 4、GPT 3.5、Luminousは、OpenGPT-X、Alpaca、Luminousと比べ、特に低い数の著作権侵害を発生させる。 コードはまもなく公開される予定だ。

Memorization in large language models (LLMs) is a growing concern. LLMs have been shown to easily reproduce parts of their training data, including copyrighted work. This is an important problem to solve, as it may violate existing copyright laws as well as the European AI Act. In this work, we propose a systematic analysis to quantify the extent of potential copyright infringements in LLMs using European law as an example. Unlike previous work, we evaluate instruction-finetuned models in a realistic end-user scenario. Our analysis builds on a proposed threshold of 160 characters, which we borrow from the German Copyright Service Provider Act and a fuzzy text matching algorithm to identify potentially copyright-infringing textual reproductions. The specificity of countermeasures against copyright infringement is analyzed by comparing model behavior on copyrighted and public domain data. We investigate what behaviors models show instead of producing protected text (such as refusal or hallucination) and provide a first legal assessment of these behaviors. We find that there are huge differences in copyright compliance, specificity, and appropriate refusal among popular LLMs. Alpaca, GPT 4, GPT 3.5, and Luminous perform best in our comparison, with OpenGPT-X, Alpaca, and Luminous producing a particularly low absolute number of potential copyright violations. Code will be published soon.
翻訳日:2024-05-30 22:13:00 公開日:2024-05-28
# 視覚課題における第2モーメント指数スケーリング最適化器の統一バランス理論

The Unified Balance Theory of Second-Moment Exponential Scaling Optimizers in Visual Tasks ( http://arxiv.org/abs/2405.18498v1 )

ライセンス: Link先を確認
Gongyue Zhang, Honghai Liu, (参考訳) 可変第2モーメント指数スケーリング(SMES)を用いて、一階最適化器を統一する潜在的な方法を特定した。 バック伝搬から始まり、勾配の消滅や爆発のような古典的な現象に対処し、データセットのスパーシリティに関連する問題に対処し、最適化におけるバランスの理論を導入する。 この理論により、SGDと適応オプティマイザはより広範な推論の下で統一され、一階オプティマイザの一般化された公式内でバランスの取れたアプローチを達成するために、変動的な指数的スケーリングを採用することが提案される。 いくつかの古典的データセットやネットワーク上で,バランス係数の違いがトレーニングプロセス全体に与える影響を確認する試験を行った。

We have identified a potential method for unifying first-order optimizers through the use of variable Second-Moment Exponential Scaling(SMES). We begin with back propagation, addressing classic phenomena such as gradient vanishing and explosion, as well as issues related to dataset sparsity, and introduce the theory of balance in optimization. Through this theory, we suggest that SGD and adaptive optimizers can be unified under a broader inference, employing variable moving exponential scaling to achieve a balanced approach within a generalized formula for first-order optimizers. We conducted tests on some classic datasets and networks to confirm the impact of different balance coefficients on the overall training process.
翻訳日:2024-05-30 22:13:00 公開日:2024-05-28
# 分類のための大マルジン識別損失

Large Margin Discriminative Loss for Classification ( http://arxiv.org/abs/2405.18499v1 )

ライセンス: Link先を確認
Hai-Vy Nguyen, Fabrice Gamboa, Sixin Zhang, Reda Chhaibi, Serge Gratton, Thierry Giaccone, (参考訳) 本稿では,Deep Learningの文脈において,大きなマージンを有する新たな識別的損失関数を提案する。 この損失は、クラス内コンパクト性とクラス間分離性によって表されるニューラルネットの識別力を高める。 一方、クラスコンパクト性は、同じクラスのサンプル同士の近接距離によって保証される。 一方、クラス間の分離性は、各クラスから最も近い境界までの最小距離を保証するマージン損失によって促進される。 私たちの損失のすべての用語は明示的な意味を持ち、得られた特徴空間の直接的なビューを与えます。 本研究では,コンパクト度とマージン項の関係を数学的に解析し,ハイパーパラメータが学習特徴に与える影響に関する指針を与える。 さらに、ニューラルネットのパラメータに関する損失の勾配特性も解析する。 これに基づいて、トレーニングにおける安定性と一貫性を同時に享受する部分運動量更新と呼ばれる戦略を設計する。 さらに,より理論的な洞察を得るため,一般化誤差についても検討する。 我々の損失関数は、実験における標準ソフトマックス損失と比較して、モデルの試験精度を体系的に向上させる。

In this paper, we introduce a novel discriminative loss function with large margin in the context of Deep Learning. This loss boosts the discriminative power of neural nets, represented by intra-class compactness and inter-class separability. On the one hand, the class compactness is ensured by close distance of samples of the same class to each other. On the other hand, the inter-class separability is boosted by a margin loss that ensures the minimum distance of each class to its closest boundary. All the terms in our loss have an explicit meaning, giving a direct view of the feature space obtained. We analyze mathematically the relation between compactness and margin term, giving a guideline about the impact of the hyper-parameters on the learned features. Moreover, we also analyze properties of the gradient of the loss with respect to the parameters of the neural net. Based on this, we design a strategy called partial momentum updating that enjoys simultaneously stability and consistency in training. Furthermore, we also investigate generalization errors to have better theoretical insights. Our loss function systematically boosts the test accuracy of models compared to the standard softmax loss in our experiments.
翻訳日:2024-05-30 22:13:00 公開日:2024-05-28
# SoundCTM:テキスト・ツー・サウンド・ジェネレーションのためのスコアベース・一貫性モデル

SoundCTM: Uniting Score-based and Consistency Models for Text-to-Sound Generation ( http://arxiv.org/abs/2405.18503v1 )

ライセンス: Link先を確認
Koichi Saito, Dongjun Kim, Takashi Shibuya, Chieh-Hsin Lai, Zhi Zhong, Yuhta Takida, Yuki Mitsufuji, (参考訳) サウンドコンテンツは、ビデオゲーム、音楽、映画などのマルチメディア作品にとって欠かせない要素である。 最近の高品質な拡散型音響生成モデルは、クリエイターにとって貴重なツールとなりうる。 しかし、高品質な音を出すにもかかわらず、これらのモデルは推論速度が遅い。 この欠点は、通常、試行錯誤によって音を洗練させ、芸術的な意図と整合させるクリエーターの負担を和らげる。 この問題に対処するため,SoundCTM(Sound Consistency Trajectory Models)を導入する。 提案モデルは,高品位1段音生成と高品位1段音生成との柔軟な遷移を可能にする。 これにより、クリエーターは最初は1ステップのサンプルで音をコントロールし、マルチステップ生成によってそれを精製することができる。 CTMは基本的にフレキシブルな1ステップとマルチステップの生成を実現するが、その顕著な性能は追加の事前訓練された特徴抽出器と、他のドメインでは必ずしも利用できない訓練に高価である敵の損失に大きく依存する。 そこで我々は,CTMのトレーニングフレームワークを再構築し,蒸留損失に教師のネットワークを活用することにより,新たな特徴距離を導入する。 さらに, 分類器を含まない誘導軌道を蒸留しながら, 条件付きおよび無条件の学生モデルを同時に訓練し, 推論中にそれらのモデルを補間する。 また,SoundCTMのフレキシブルサンプリング機能を活用して,トレーニング不要な制御可能なフレームワークを提案する。 SoundCTMは、余分なオフザシェルフネットワークを使わずに、有望な1ステップと複数ステップのリアルタイムサウンド生成を実現する。 さらに,SoundCTMの可制御音発生能力について,無訓練で実演する。

Sound content is an indispensable element for multimedia works such as video games, music, and films. Recent high-quality diffusion-based sound generation models can serve as valuable tools for the creators. However, despite producing high-quality sounds, these models often suffer from slow inference speeds. This drawback burdens creators, who typically refine their sounds through trial and error to align them with their artistic intentions. To address this issue, we introduce Sound Consistency Trajectory Models (SoundCTM). Our model enables flexible transitioning between high-quality 1-step sound generation and superior sound quality through multi-step generation. This allows creators to initially control sounds with 1-step samples before refining them through multi-step generation. While CTM fundamentally achieves flexible 1-step and multi-step generation, its impressive performance heavily depends on an additional pretrained feature extractor and an adversarial loss, which are expensive to train and not always available in other domains. Thus, we reframe CTM's training framework and introduce a novel feature distance by utilizing the teacher's network for a distillation loss. Additionally, while distilling classifier-free guided trajectories, we train conditional and unconditional student models simultaneously and interpolate between these models during inference. We also propose training-free controllable frameworks for SoundCTM, leveraging its flexible sampling capability. SoundCTM achieves both promising 1-step and multi-step real-time sound generation without using any extra off-the-shelf networks. Furthermore, we demonstrate SoundCTM's capability of controllable sound generation in a training-free manner.
翻訳日:2024-05-30 22:13:00 公開日:2024-05-28
# 監視格子ゲージ理論における対称性-保護ゼノ相転移

Symmetry-protection Zeno phase transition in monitored lattice gauge theories ( http://arxiv.org/abs/2405.18504v1 )

ライセンス: Link先を確認
Matteo M. Wauters, Edoardo Ballini, Alberto Biella, Philipp Hauke, (参考訳) 量子測定はシステム力学に大きな影響を及ぼす。 これらは量子ゼノ効果のような複雑な非平衡現象を引き起こし、量子シミュレーションにおける誤差の緩和に使用できる。 このような能力は格子ゲージ理論(LGT)において特に有用であり、多くの局所保存法則の保存が困難である。 調整された量子測定がゲージ対称性の破れを和らげることは知られているが、この保護の性質、特にしきい値の挙動の可能性はまだ解明されていない。 ここでは、測定速度によって引き起こされる鋭い遷移の存在を、シミュレーション誤差に抵抗する保護ゲージ理論則と不規則則との間に示す。 この結果は 1+1d $\mathbb{Z}_2$ LGT のパラダイム的な例に基づいている。 局所対称性発生器に結合した補助量子ビットの射影的測定により保護を詳細に検討し、この手法をアナログ(弱)測定プロトコルと比較する。 連続時間制限におけるアンサンブル平均は、同じリウヴィリア力学を共有するが、確率ゲージ保護プロトコルの異なる物理実装は、非常に異なる統計量を持つ軌道解法を生成する。 さらに,ビットフリップ誤りを訂正し,離散時間スキームを大幅に向上するオンチップフィードバック機構を設計する。 我々の結果は、強い相互作用を持つ高制約量子系の散逸臨界性に光を当て、ゲージ理論量子シミュレーションの誤差軽減と補正に関する貴重な洞察を提供する。

Quantum measurements profoundly influence system dynamics. They lead to complex nonequilibrium phenomena like the quantum Zeno effect, and they can be used for mitigating errors in quantum simulations. Such an ability is particularly valuable for lattice gauge theories (LGTs), which require the challenging preservation of an extensive number of local conservation laws. While it is known that tailored quantum measurements can soften violations of gauge symmetry, the nature of this protection, and in particular the possibility of a threshold behavior, is still unexplored. Here, we demonstrate the existence of a sharp transition, triggered by the measurement rate, between a protected gauge-theory regime resistant to simulation errors and an irregular regime. Our results are based on the paradigmatic example of a 1+1d $\mathbb{Z}_2$ LGT. We study in detail the protection through projective measurements of ancillary qubits coupled to the local symmetry generators, and compare this approach with analog (weak) measurement protocols. We show that, while the resulting ensemble averages in the continuous-time limit share the same Liouvillian dynamics, different physical implementations of the stochastic gauge protection protocol yield trajectory unravelings with vastly different statistics. Additionally, we design an on-chip feedback mechanism that corrects bit-flip errors and significantly enhances the discrete-time scheme. Our results shed light on the dissipative criticality of strongly-interacting, highly-constrained quantum systems, and they offer valuable insights into error mitigation and correction of gauge-theory quantum simulations.
翻訳日:2024-05-30 22:13:00 公開日:2024-05-28
# フローサイトメトリー予測のためのグラフニューラルネットワークへの階層的生物前駆体注入

Injecting Hierarchical Biological Priors into Graph Neural Networks for Flow Cytometry Prediction ( http://arxiv.org/abs/2405.18507v1 )

ライセンス: Link先を確認
Fatemeh Nassajian Mojarrad, Lorenzo Bini, Thomas Matthes, Stéphane Marchand-Maillet, (参考訳) フローサイトメトリー(FC)データから得られた末梢血や骨髄などの血液学的サンプルの複雑な景観において、細胞レベルでの予測は深刻な課題を呈している。 本研究では、グラフニューラルネットワーク(GNN)に階層的な事前知識を注入して、表層セルデータの単一セルマルチクラス分類を行う。 データをグラフとして表現し,クラス間の階層的関係を符号化することにより,複数のGNNモデル,すなわちFCHC-GNNに適用可能な階層的プラグイン手法を提案する。 19人の異なる患者のコホートに対する大規模な実験により、階層的な生物学的制約を取り入れることによって、複数の指標においてパフォーマンスが著しく向上することが実証された。 提案手法は, 複雑な生物予測タスクにおける一般化向上のための構造的帰納バイアスの重要性を強調した。

In the complex landscape of hematologic samples such as peripheral blood or bone marrow derived from flow cytometry (FC) data, cell-level prediction presents profound challenges. This work explores injecting hierarchical prior knowledge into graph neural networks (GNNs) for single-cell multi-class classification of tabular cellular data. By representing the data as graphs and encoding hierarchical relationships between classes, we propose our hierarchical plug-in method to be applied to several GNN models, namely, FCHC-GNN, and effectively designed to capture neighborhood information crucial for single-cell FC domain. Extensive experiments on our cohort of 19 distinct patients, demonstrate that incorporating hierarchical biological constraints boosts performance significantly across multiple metrics compared to baseline GNNs without such priors. The proposed approach highlights the importance of structured inductive biases for gaining improved generalization in complex biological prediction tasks.
翻訳日:2024-05-30 22:13:00 公開日:2024-05-28
# AIと人間の感情アライメントの改善: 安定拡散v1, DALL-E2, DALL-E3で表される感情の人間のレーティング

Improved Emotional Alignment of AI and Humans: Human Ratings of Emotions Expressed by Stable Diffusion v1, DALL-E 2, and DALL-E 3 ( http://arxiv.org/abs/2405.18510v1 )

ライセンス: Link先を確認
James Derek Lomas, Willem van der Maden, Sohhom Bandyopadhyay, Giovanni Lion, Nirmal Patel, Gyanesh Jain, Yanna Litowsky, Haian Xue, Pieter Desmet, (参考訳) 生成AIシステムは、テキストや画像を通じて感情を表現する能力がますます高まっている。 効果的な感情表現は、AIシステム、特に人間のメンタルヘルスと幸福をサポートするように設計されたシステムにおいて、大きな役割を果たす可能性が高い。 これは、AI表現された感情と人間の感情の知覚との整合をよりよく理解するために、我々の現在の研究を動機付けます。 AIが特定の感情を表現しようとするとき、その感情が成功するかどうかをどうやって評価すればよいのか? この問いに答えるために、私たちは、生成的AIによって表現される感情と人間の知覚との整合性を測定する調査を設計した。 3つの生成画像モデル(DALL-E 2、DALL-E 3、Stable Diffusion v1)を用いて240のサンプル画像を生成した。 Prolificのウェブサイトから募集された24人の参加者は、感情を生成するために使用されるテキストプロンプト(つまり「感情を楽しませるロボット」)とAIが生成する感情表現のアライメントを評価した。 評価の結果,生成型AIモデルでは,人間の感情に順応した感情表現を生成できることが示唆されたが,そのアライメントは使用するAIモデルと感情そのものに大きく依存していることが示唆された。 これらのシステムの性能の変動を分析し、将来の改善のためのギャップを特定する。 我々は、メンタルヘルスと幸福をサポートするように設計された将来のAIシステムへの影響についての議論で締めくくった。

Generative AI systems are increasingly capable of expressing emotions via text and imagery. Effective emotional expression will likely play a major role in the efficacy of AI systems -- particularly those designed to support human mental health and wellbeing. This motivates our present research to better understand the alignment of AI expressed emotions with the human perception of emotions. When AI tries to express a particular emotion, how might we assess whether they are successful? To answer this question, we designed a survey to measure the alignment between emotions expressed by generative AI and human perceptions. Three generative image models (DALL-E 2, DALL-E 3 and Stable Diffusion v1) were used to generate 240 examples of images, each of which was based on a prompt designed to express five positive and five negative emotions across both humans and robots. 24 participants recruited from the Prolific website rated the alignment of AI-generated emotional expressions with a text prompt used to generate the emotion (i.e., "A robot expressing the emotion amusement"). The results of our evaluation suggest that generative AI models are indeed capable of producing emotional expressions that are well-aligned with a range of human emotions; however, we show that the alignment significantly depends upon the AI model used and the emotion itself. We analyze variations in the performance of these systems to identify gaps for future improvement. We conclude with a discussion of the implications for future AI systems designed to support mental health and wellbeing.
翻訳日:2024-05-30 22:13:00 公開日:2024-05-28
# 脳疾患とセグメンテーションのためのMRIデータベースを用いた共同学習の可能性とメリット

Feasibility and benefits of joint learning from MRI databases with different brain diseases and modalities for segmentation ( http://arxiv.org/abs/2405.18511v1 )

ライセンス: Link先を確認
Wentian Xu, Matthew Moffat, Thalia Seale, Ziyun Liang, Felix Wagner, Daniel Whitehouse, David Menon, Virginia Newcombe, Natalie Voets, Abhirup Banerjee, Konstantinos Kamnitsas, (参考訳) マルチモーダルMRIにおける脳病変のセグメンテーションモデルは通常、特定の疾患のプロトコルによって決定されるMRIモダリティのセットが予め定義された単一のデータベースを用いて、特定の病理のために訓練される。 さまざまなMRIモダリティとさまざまな脳病理のためのアノテーションを含む複数のデータベースを使用してモデルをトレーニングすることは可能か? この共同学習は、トレーニング中に利用可能なモダリティと病理のセットのパフォーマンスに恩恵をもたらすだろうか? モダリティと病理の異なる新しいデータベースを解析することは可能だろうか? 我々は、様々な手法を開発し、比較し、モデルとトレーニングフレームワークに適切な、シンプルで実践的な変更を加えることで、有望な結果が得られることを示す。 われわれは5種類の脳病理と異なるMRIモダリティを含む7つのデータベースを実験した。 その結果、異なる脳病理と一連のモダリティを持つマルチモーダルMRIデータベースのジョイントトレーニングが実現可能であり、実用的な利点をもたらすことが初めて示された。 これにより、トレーニング中に遭遇した病理を様々なモダリティのセットで分割し、フォローアップファインタニングのような新しいタイプの病理を分割することが可能になる。 本研究は, このパラダイムの可能性と限界を考察し, 今後の方向性を導く上で有用であることが示唆された。 コードおよび事前訓練されたモデル:https://github.com/WenTXuL/MultiUnet

Models for segmentation of brain lesions in multi-modal MRI are commonly trained for a specific pathology using a single database with a predefined set of MRI modalities, determined by a protocol for the specific disease. This work explores the following open questions: Is it feasible to train a model using multiple databases that contain varying sets of MRI modalities and annotations for different brain pathologies? Will this joint learning benefit performance on the sets of modalities and pathologies available during training? Will it enable analysis of new databases with different sets of modalities and pathologies? We develop and compare different methods and show that promising results can be achieved with appropriate, simple and practical alterations to the model and training framework. We experiment with 7 databases containing 5 types of brain pathologies and different sets of MRI modalities. Results demonstrate, for the first time, that joint training on multi-modal MRI databases with different brain pathologies and sets of modalities is feasible and offers practical benefits. It enables a single model to segment pathologies encountered during training in diverse sets of modalities, while facilitating segmentation of new types of pathologies such as via follow-up fine-tuning. The insights this study provides into the potential and limitations of this paradigm should prove useful for guiding future advances in the direction. Code and pretrained models: https://github.com/WenTXuL/MultiUnet
翻訳日:2024-05-30 22:03:07 公開日:2024-05-28
# グラフアルゴリズムによる変圧器推論能力の理解

Understanding Transformer Reasoning Capabilities via Graph Algorithms ( http://arxiv.org/abs/2405.18512v1 )

ライセンス: Link先を確認
Clayton Sanford, Bahare Fatemi, Ethan Hall, Anton Tsitsulin, Mehran Kazemi, Jonathan Halcrow, Bryan Perozzi, Vahab Mirrokni, (参考訳) どのトランスフォーマースケーリングレジームが、アルゴリズムのさまざまなクラスを完璧に解決できるのか? トランスフォーマーベースのニューラルネットワークによって、膨大な経験的進歩が達成されている一方で、現実的なパラメータ体系におけるアルゴリズム推論能力に関する理論的理解が欠如している。 本稿では,ネットワークの深さ,幅,アルゴリズム実行のための余分なトークン数の観点から,この問題を考察する。 我々の新しい表現階層は、9つのアルゴリズム的推論問題を、異なる現実的なパラメータスケーリング方式の変換器で解けるクラスに分離する。 グラフ接続のようなタスクには対数深さが必要で十分であることを示す一方、埋め込み次元の小さい単一層トランスは文脈的検索タスクを解くことができる。 また、GraphQAベンチマークを用いて、経験的証拠を多用した理論解析も支援している。 これらの結果は、トランスフォーマーが多くのグラフ推論タスクで優れており、特殊なグラフニューラルネットワークよりも優れていることを示している。

Which transformer scaling regimes are able to perfectly solve different classes of algorithmic problems? While tremendous empirical advances have been attained by transformer-based neural networks, a theoretical understanding of their algorithmic reasoning capabilities in realistic parameter regimes is lacking. We investigate this question in terms of the network's depth, width, and number of extra tokens for algorithm execution. Our novel representational hierarchy separates 9 algorithmic reasoning problems into classes solvable by transformers in different realistic parameter scaling regimes. We prove that logarithmic depth is necessary and sufficient for tasks like graph connectivity, while single-layer transformers with small embedding dimensions can solve contextual retrieval tasks. We also support our theoretical analysis with ample empirical evidence using the GraphQA benchmark. These results show that transformers excel at many graph reasoning tasks, even outperforming specialized graph neural networks.
翻訳日:2024-05-30 22:03:07 公開日:2024-05-28
# Atlas3D:シミュレーションと製作のための物理的に制約されたセルフ・サポーティング・テキスト・トゥ・3D

Atlas3D: Physically Constrained Self-Supporting Text-to-3D for Simulation and Fabrication ( http://arxiv.org/abs/2405.18515v1 )

ライセンス: Link先を確認
Yunuo Chen, Tianyi Xie, Zeshun Zong, Xuan Li, Feng Gao, Yin Yang, Ying Nian Wu, Chenfanfu Jiang, (参考訳) 既存の拡散ベースのテキスト・ツー・3D生成手法は主に視覚的にリアルな形状や外観を作り出すことに焦点を当てており、下流のタスクに必要な物理的な制約を無視することが多い。 生成したモデルは物理ベースのシミュレーションや3Dプリントでバランスを保つのにしばしば失敗する。 このバランスは、対話型ゲーム、具体化されたAI、ロボット工学におけるユーザーデザインの意図を満たすために不可欠である。 さらに、安定したモデルでは、家庭装飾用のフィギュアのような3Dプリントされたオブジェクトが、追加のサポートを必要とせずに、単独で立ち上がることが保証されている。 このギャップを埋めるために,既存のスコア蒸留サンプリング(SDS)ベースのテキスト・ツー・3Dツールを強化する,自動で実装が容易なAtlas3Dを導入する。 Atlas3Dは、重力、接触、摩擦の下での物理的安定性の法則に従う自己支持型3Dモデルの生成を保証する。 提案手法は,従来のフレームワークのリファインメントや後処理モジュールとして機能する,新しい微分可能なシミュレーションベース損失関数と物理的にインスパイアされた正規化を組み合わせたものである。 我々は、Atlas3Dの有効性を広範囲な生成タスクを通して検証し、シミュレーションと実環境の両方で結果の3Dモデルを検証する。

Existing diffusion-based text-to-3D generation methods primarily focus on producing visually realistic shapes and appearances, often neglecting the physical constraints necessary for downstream tasks. Generated models frequently fail to maintain balance when placed in physics-based simulations or 3D printed. This balance is crucial for satisfying user design intentions in interactive gaming, embodied AI, and robotics, where stable models are needed for reliable interaction. Additionally, stable models ensure that 3D-printed objects, such as figurines for home decoration, can stand on their own without requiring additional supports. To fill this gap, we introduce Atlas3D, an automatic and easy-to-implement method that enhances existing Score Distillation Sampling (SDS)-based text-to-3D tools. Atlas3D ensures the generation of self-supporting 3D models that adhere to physical laws of stability under gravity, contact, and friction. Our approach combines a novel differentiable simulation-based loss function with physically inspired regularization, serving as either a refinement or a post-processing module for existing frameworks. We verify Atlas3D's efficacy through extensive generation tasks and validate the resulting 3D models in both simulated and real-world environments.
翻訳日:2024-05-30 22:03:07 公開日:2024-05-28
# LSTM-COXモデル:反復イベント処理のための簡潔かつ効率的な深層学習手法

LSTM-COX Model: A Concise and Efficient Deep Learning Approach for Handling Recurrent Events ( http://arxiv.org/abs/2405.18518v1 )

ライセンス: Link先を確認
Zhang Runquan, Shi Xiaoping, (参考訳) 現在の臨床医学の分野では、リカレント事象を解析するための従来の手法は、複雑な時間依存データを扱う際に制限がある。 本研究では,Long Short-Term Memory Network (LSTM) とCoxモデルを組み合わせることで,動的時間的情報を用いて繰り返しイベントを解析する際のモデルの性能を向上させる。 従来のモデルと比較して、LSTM-Coxモデルは臨床リスクの特徴抽出の精度を大幅に向上させ、シミュレーションデータセット上での良好な性能を維持しつつ、Akaike Information Criterion(AIC)の低い値を示す。 膀胱癌再発データを実験的に解析し, トレーニング期間中の平均2乗誤差を低減し, テストセットで最大0.90のコンコーダンス指数を達成した。 さらに,高リスク群と低リスク群を効果的に区別し,腫瘍再発数や最大サイズなどの再発リスクの特徴を他の研究および臨床試験結果と一致させた。 本研究は,再帰的データの解析と特徴抽出の簡便かつ効率的な方法を提供するだけでなく,深層学習技術を臨床リスク予測システムに統合するための便利な経路を提供する。

In the current field of clinical medicine, traditional methods for analyzing recurrent events have limitations when dealing with complex time-dependent data. This study combines Long Short-Term Memory networks (LSTM) with the Cox model to enhance the model's performance in analyzing recurrent events with dynamic temporal information. Compared to classical models, the LSTM-Cox model significantly improves the accuracy of extracting clinical risk features and exhibits lower Akaike Information Criterion (AIC) values, while maintaining good performance on simulated datasets. In an empirical analysis of bladder cancer recurrence data, the model successfully reduced the mean squared error during the training phase and achieved a Concordance index of up to 0.90 on the test set. Furthermore, the model effectively distinguished between high and low-risk patient groups, and the identified recurrence risk features such as the number of tumor recurrences and maximum size were consistent with other research and clinical trial results. This study not only provides a straightforward and efficient method for analyzing recurrent data and extracting features but also offers a convenient pathway for integrating deep learning techniques into clinical risk prediction systems.
翻訳日:2024-05-30 22:03:07 公開日:2024-05-28
# オフライン型アクター臨界:深部オフポリシィRLの最適歴史的挙動を適応的に曲げる

Offline-Boosted Actor-Critic: Adaptively Blending Optimal Historical Behaviors in Deep Off-Policy RL ( http://arxiv.org/abs/2405.18520v1 )

ライセンス: Link先を確認
Yu Luo, Tianying Ji, Fuchun Sun, Jianwei Zhang, Huazhe Xu, Xianyuan Zhan, (参考訳) オフ・ポリティクス強化学習(RL)は、以前に収集したデータを政策学習に活用することにより、多くの複雑な現実世界のタスクに取り組むことで顕著な成功を収めた。 しかし、既存のRLアルゴリズムのほとんどは、リプレイバッファ内の情報を最大限に活用することができず、サンプル効率とポリシー性能を制限している。 本研究では,共有オンライン再生バッファをベースとしたオフラインRLポリシーの同時学習が,本来のオンライン学習ポリシーより優れていることを発見した。 これは、オンラインのポリシー学習を改善するために、オフラインの最適ポリシーを突発的に改善する新たな可能性の動機となっている。 この知見に基づき,モデルのないオンラインRLフレームワークであるOBAC(Offline-Boosted Actor-Critic)を提案する。 実験の結果,OBACは他のモデルフリーのRLベースラインよりも優れており,6つのタスクスイートにまたがる53のタスクにまたがるサンプル効率と漸近性能の点で,高度なモデルベースRLメソッドと競合することがわかった。

Off-policy reinforcement learning (RL) has achieved notable success in tackling many complex real-world tasks, by leveraging previously collected data for policy learning. However, most existing off-policy RL algorithms fail to maximally exploit the information in the replay buffer, limiting sample efficiency and policy performance. In this work, we discover that concurrently training an offline RL policy based on the shared online replay buffer can sometimes outperform the original online learning policy, though the occurrence of such performance gains remains uncertain. This motivates a new possibility of harnessing the emergent outperforming offline optimal policy to improve online policy learning. Based on this insight, we present Offline-Boosted Actor-Critic (OBAC), a model-free online RL framework that elegantly identifies the outperforming offline policy through value comparison, and uses it as an adaptive constraint to guarantee stronger policy learning performance. Our experiments demonstrate that OBAC outperforms other popular model-free RL baselines and rivals advanced model-based RL methods in terms of sample efficiency and asymptotic performance across 53 tasks spanning 6 task suites.
翻訳日:2024-05-30 22:03:07 公開日:2024-05-28
# TripletMix: 3D理解のためのトリプルトデータ拡張

TripletMix: Triplet Data Augmentation for 3D Understanding ( http://arxiv.org/abs/2405.18523v1 )

ライセンス: Link先を確認
Jiaze Wang, Yi Wang, Ziyu Guo, Renrui Zhang, Donghao Zhou, Guangyong Chen, Anfeng Liu, Pheng-Ann Heng, (参考訳) データ拡張は、特に従来のデータセットが制限される3Dビジョンにおいて、ディープラーニングモデルの一般化能力を向上するための重要なツールであることが証明されている。 これまでの進歩にもかかわらず、既存のメソッドは、主に、テキスト、イメージ、ポイントクラウドを統合したマルチモーダルトリプルデータの増大にギャップを残した、ユニモーダルなデータシナリオに対応している。 3つのモダリティを同時に増強することで多様性が向上し、モダリティ間のアライメントが向上し、より包括的で堅牢な3D表現が得られる。 このギャップに対処するために,3次元理解におけるマルチモーダルデータ拡張の未検討問題に対処する新しいアプローチであるTripletMixを提案する。 TripletMixは、マルチモーダル三重項データに対する混合ベースの拡張の原理を革新的に応用し、クロスモーダル接続の保存と最適化を可能にした。 提案するTripletMixは,特徴レベルと入力レベルを組み合わせ,生データと潜時特徴の二重化を実現し,特徴整合性の確保と多彩で現実的なトレーニングサンプルの提供により,モデルのクロスモーダル理解と一般化能力を大幅に向上させる。 我々は,TripletMixが,ゼロショットや線形探索などの学習シナリオにおけるモデルのベースライン性能を向上するだけでなく,モデルの一般化可能性を大幅に向上させることを示した。 特に、ScanObjectNNのゼロショット分類精度を51.3%から61.9%に改善し、Objaverse-LVISは46.8%から51.4%に改善しました。 本研究は,3次元物体認識と理解を著しく向上させるマルチモーダルデータ拡張の可能性を明らかにするものである。

Data augmentation has proven to be a vital tool for enhancing the generalization capabilities of deep learning models, especially in the context of 3D vision where traditional datasets are often limited. Despite previous advancements, existing methods primarily cater to unimodal data scenarios, leaving a gap in the augmentation of multimodal triplet data, which integrates text, images, and point clouds. Simultaneously augmenting all three modalities enhances diversity and improves alignment across modalities, resulting in more comprehensive and robust 3D representations. To address this gap, we propose TripletMix, a novel approach to address the previously unexplored issue of multimodal data augmentation in 3D understanding. TripletMix innovatively applies the principles of mixed-based augmentation to multimodal triplet data, allowing for the preservation and optimization of cross-modal connections. Our proposed TripletMix combines feature-level and input-level augmentations to achieve dual enhancement between raw data and latent features, significantly improving the model's cross-modal understanding and generalization capabilities by ensuring feature consistency and providing diverse and realistic training samples. We demonstrate that TripletMix not only improves the baseline performance of models in various learning scenarios including zero-shot and linear probing classification but also significantly enhances model generalizability. Notably, we improved the zero-shot classification accuracy on ScanObjectNN from 51.3 percent to 61.9 percent, and on Objaverse-LVIS from 46.8 percent to 51.4 percent. Our findings highlight the potential of multimodal data augmentation to significantly advance 3D object recognition and understanding.
翻訳日:2024-05-30 22:03:07 公開日:2024-05-28
# コンパクトな空間に配向する:不均一なアーキテクチャ間の対照的な知識蒸留

Aligning in a Compact Space: Contrastive Knowledge Distillation between Heterogeneous Architectures ( http://arxiv.org/abs/2405.18524v1 )

ライセンス: Link先を確認
Hongjun Wu, Li Xiao, Xingkuo Zhang, Yining Miao, (参考訳) 知識蒸留はニューラルネットワークを圧縮するために一般的に用いられ、推論コストとメモリフットプリントを削減している。 均質アーキテクチャのシナリオでは、特徴に基づく手法がその有効性に対して広く検証されている。 しかし、教師モデルと学生モデルが異種アーキテクチャである場合、特徴表現の固有の違いはこれらの手法の性能を著しく低下させる。 近年の研究では、低周波成分が画像の特徴の大部分を占めていることが強調されている。 そこで本研究では,低周波成分を用いたコントラスト知識蒸留(Contrastive Knowledge Distillation, LFCC)フレームワークを提案する。 具体的には,教師モデルと学生モデルの両方から,中間特徴の低周波成分を抽出するマルチスケール低域フィルタの集合を設計し,それらをコンパクトな空間に整列させて,構造的差異を克服する。 さらに,教師/学生の本質的なペアリング特性を活用して,サンプル内特徴類似性の制約とサンプル間特徴分散の制約をコントラスト学習タスクに順応的に再構成する,革新的なサンプルレベルのコントラスト学習フレームワークを設計する。 この戦略により、学生モデルは、異なるサンプルの特徴の識別を同時に強化しつつ、サンプル内特徴の一致に乗じることができる。 その結果,LFCCフレームワークは異種アーキテクチャにおける特徴表現の共通点を正確に捉えている。 3つのアーキテクチャ(CNN, Transformer, MLP)にわたる広範囲な評価と実証分析により,ImageNet-1KとCIFAR-100の挑戦的なベンチマークにおいて,LFCCが優れた性能を発揮することが示された。 すべてのコードは公開されます。

Knowledge distillation is commonly employed to compress neural networks, reducing the inference costs and memory footprint. In the scenario of homogenous architecture, feature-based methods have been widely validated for their effectiveness. However, in scenarios where the teacher and student models are of heterogeneous architectures, the inherent differences in feature representation significantly degrade the performance of these methods. Recent studies have highlighted that low-frequency components constitute the majority of image features. Motivated by this, we propose a Low-Frequency Components-based Contrastive Knowledge Distillation (LFCC) framework that significantly enhances the performance of feature-based distillation between heterogeneous architectures. Specifically, we designe a set of multi-scale low-pass filters to extract the low-frequency components of intermediate features from both the teacher and student models, aligning them in a compact space to overcome architectural disparities. Moreover, leveraging the intrinsic pairing characteristic of the teacher-student framework, we design an innovative sample-level contrastive learning framework that adeptly restructures the constraints of within-sample feature similarity and between-sample feature divergence into a contrastive learning task. This strategy enables the student model to capitalize on intra-sample feature congruence while simultaneously enhancing the discrimination of features among disparate samples. Consequently, our LFCC framework accurately captures the commonalities in feature representation across heterogeneous architectures. Extensive evaluations and empirical analyses across three architectures (CNNs, Transformers, and MLPs) demonstrate that LFCC achieves superior performance on the challenging benchmarks of ImageNet-1K and CIFAR-100. All codes will be publicly available.
翻訳日:2024-05-30 22:03:07 公開日:2024-05-28
# REPARO: 微分可能な3次元レイアウトアライメントによる合成3Dアセット生成

REPARO: Compositional 3D Assets Generation with Differentiable 3D Layout Alignment ( http://arxiv.org/abs/2405.18525v1 )

ライセンス: Link先を確認
Haonan Han, Rui Yang, Huan Liao, Jiankai Xing, Zunnan Xu, Xiaoming Yu, Junwei Zha, Xiu Li, Wanhua Li, (参考訳) 従来の画像から3Dモデルでは、バイアスや閉塞の複雑さのため、複数のオブジェクトを含むシーンで苦労することが多い。 この課題に対処するために,単一画像からの合成3Dアセット生成のための新しいアプローチであるREPAROを提案する。 まず、シーンから個々のオブジェクトを抽出し、オフザシェルフ画像から3Dモデルを使用してそれらの3Dメッシュを再構築し、異なるレンダリング技術によってこれらのメッシュのレイアウトを最適化し、コヒーレントなシーン構成を保証する。 最適なトランスポートベース長範囲の外観損失項と高レベルの意味損失項を微分可能レンダリングに統合することにより、REPAROは3Dアセットのレイアウトを効果的に復元することができる。 提案手法は,オブジェクト独立性,細部精度,全体のシーンコヒーレンスを著しく向上させることができる。 マルチオブジェクトシーンの広汎な評価は、REPAROが単一画像からの多オブジェクト3Dシーン生成の複雑さに対処するための包括的アプローチを提供することを示している。

Traditional image-to-3D models often struggle with scenes containing multiple objects due to biases and occlusion complexities. To address this challenge, we present REPARO, a novel approach for compositional 3D asset generation from single images. REPARO employs a two-step process: first, it extracts individual objects from the scene and reconstructs their 3D meshes using off-the-shelf image-to-3D models; then, it optimizes the layout of these meshes through differentiable rendering techniques, ensuring coherent scene composition. By integrating optimal transport-based long-range appearance loss term and high-level semantic loss term in the differentiable rendering, REPARO can effectively recover the layout of 3D assets. The proposed method can significantly enhance object independence, detail accuracy, and overall scene coherence. Extensive evaluation of multi-object scenes demonstrates that our REPARO offers a comprehensive approach to address the complexities of multi-object 3D scene generation from single images.
翻訳日:2024-05-30 22:03:07 公開日:2024-05-28
# コンフォーマル予測による逆問題におけるタスク駆動不確かさの定量化

Task-Driven Uncertainty Quantification in Inverse Problems via Conformal Prediction ( http://arxiv.org/abs/2405.18527v1 )

ライセンス: Link先を確認
Jeffrey Wen, Rizwan Ahmad, Philip Schniter, (参考訳) 逆問題の画像化では、画像が欠落/破損した測定結果から回復しようとする。 このような問題は正しくないため、測定・回収プロセスによって引き起こされる不確実性を定量化する大きな動機がある。 復元された画像が、ソフトアウトプット分類などの下流タスクに使用されるアプリケーションによって動機付けられ、不確実性定量化のためのタスク中心のアプローチを提案する。 特に、コンフォメーション予測を用いて、実際の画像からユーザ特定確率までのタスク出力を含むことが保証される間隔を構築し、その間隔の幅を用いて測定と復元による不確実性の定量化を行う。 後方サンプリングに基づく画像復元のために,局所的な適応予測区間を構築した。 さらに,タスクの不確実性が許容範囲以下になると,複数のラウンドで測定値の収集を行う。 我々は,MRI(Accelerated Magnetic resonance imaging)の方法論を実証する。

In imaging inverse problems, one seeks to recover an image from missing/corrupted measurements. Because such problems are ill-posed, there is great motivation to quantify the uncertainty induced by the measurement-and-recovery process. Motivated by applications where the recovered image is used for a downstream task, such as soft-output classification, we propose a task-centered approach to uncertainty quantification. In particular, we use conformal prediction to construct an interval that is guaranteed to contain the task output from the true image up to a user-specified probability, and we use the width of that interval to quantify the uncertainty contributed by measurement-and-recovery. For posterior-sampling-based image recovery, we construct locally adaptive prediction intervals. Furthermore, we propose to collect measurements over multiple rounds, stopping as soon as the task uncertainty falls below an acceptable level. We demonstrate our methodology on accelerated magnetic resonance imaging (MRI).
翻訳日:2024-05-30 22:03:07 公開日:2024-05-28
# BI-マンバを用いた多視点胸部X線による心血管疾患の検出

Cardiovascular Disease Detection from Multi-View Chest X-rays with BI-Mamba ( http://arxiv.org/abs/2405.18533v1 )

ライセンス: Link先を確認
Zefan Yang, Jiajin Zhang, Ge Wang, Mannudeep K. Kalra, Pingkun Yan, (参考訳) 医療画像における心血管疾患(CVD)リスクの正確な予測は、患者の健康管理に重要である。 従来の研究では、CT(Computed tomography)における画像特徴がCVDのリスクを予測するのに役立つことが示されている。 しかし、CTには顕著な放射線曝露があり、患者に悪影響を及ぼす可能性がある。 対照的に、胸部X線は放射線のレベルを著しく低くし、より安全な選択肢を提供する。 本研究は,胸部X線によるCVDリスク予測の可能性について検討する。 畳み込みニューラルネットワーク(CNN)とトランスフォーマーは、コンピュータ支援診断のための確立された2つのネットワークアーキテクチャである。 しかし、大きなコンテキストモデリング能力や2次時間複雑性が欠如しているため、非常に高解像度の胸部X線をモデル化するのに苦労している。 状態空間列モデル (SSM) に触発され, 競合するシーケンスモデリング能力を持つネットワークアーキテクチャをトランスフォーマーとして, 線形時間複雑性として, 両方向画像マンバ (BI-Mamba) を提案し, 反対方向情報で一方向SSMを補完する。 BI-Mambaは、マルチビュー胸部X線の長距離依存性を符号化するために、並列フォワードブロックとバックウォークブロックを利用する。 NLST(National Lung Screening Trail)における10,395名の被験者の画像について広範な実験を行った。 その結果、BI-MambaはResNet-50とViT-Sを同等のパラメータサイズで上回り、トレーニング中に大量のGPUメモリを節約していることがわかった。 また, BI-Mambaは従来のCTと比較して有望な性能を示し, CVDリスク予測のための胸部X線の可能性を明らかにする。

Accurate prediction of Cardiovascular disease (CVD) risk in medical imaging is central to effective patient health management. Previous studies have demonstrated that imaging features in computed tomography (CT) can help predict CVD risk. However, CT entails notable radiation exposure, which may result in adverse health effects for patients. In contrast, chest X-ray emits significantly lower levels of radiation, offering a safer option. This rationale motivates our investigation into the feasibility of using chest X-ray for predicting CVD risk. Convolutional Neural Networks (CNNs) and Transformers are two established network architectures for computer-aided diagnosis. However, they struggle to model very high resolution chest X-ray due to the lack of large context modeling power or quadratic time complexity. Inspired by state space sequence models (SSMs), a new class of network architectures with competitive sequence modeling power as Transfomers and linear time complexity, we propose Bidirectional Image Mamba (BI-Mamba) to complement the unidirectional SSMs with opposite directional information. BI-Mamba utilizes parallel forward and backwark blocks to encode longe-range dependencies of multi-view chest X-rays. We conduct extensive experiments on images from 10,395 subjects in National Lung Screening Trail (NLST). Results show that BI-Mamba outperforms ResNet-50 and ViT-S with comparable parameter size, and saves significant amount of GPU memory during training. Besides, BI-Mamba achieves promising performance compared with previous state of the art in CT, unraveling the potential of chest X-ray for CVD risk prediction.
翻訳日:2024-05-30 22:03:07 公開日:2024-05-28
# 組合せ最適化におけるサブサンプリングによる個別プライバシ会計

Individualized Privacy Accounting via Subsampling with Applications in Combinatorial Optimization ( http://arxiv.org/abs/2405.18534v1 )

ライセンス: Link先を確認
Badih Ghazi, Pritish Kamath, Ravi Kumar, Pasin Manurangsi, Adam Sealfon, (参考訳) 本研究では,アルゴリズムが一方のAdd-DPである場合,そのサブサンプル版が両側のDPを満たすという単純な観察を通して,個別化されたプライバシ会計を解析する新しい手法を提案する。 これにより、分解可能な部分モジュラ最大化や集合被覆を含む、プライベート組合せ最適化問題に対する改良されたアルゴリズムがいくつか得られる。 我々の誤差保証は漸近的に厳密であり、我々のアルゴリズムは純粋DPを満足する一方、既知アルゴリズム(Gupta et al , 2010; Chaturvedi et al , 2021)は近似DPである。 また,ストリーム内の重み付け問題に純粋DPアルゴリズムを付与することにより,組合せ最適化を超越した手法を適用した(Kaplan et al ,2021; Cohen & Lyu, 2023)。

In this work, we give a new technique for analyzing individualized privacy accounting via the following simple observation: if an algorithm is one-sided add-DP, then its subsampled variant satisfies two-sided DP. From this, we obtain several improved algorithms for private combinatorial optimization problems, including decomposable submodular maximization and set cover. Our error guarantees are asymptotically tight and our algorithm satisfies pure-DP while previously known algorithms (Gupta et al., 2010; Chaturvedi et al., 2021) are approximate-DP. We also show an application of our technique beyond combinatorial optimization by giving a pure-DP algorithm for the shifting heavy hitter problem in a stream; previously, only an approximateDP algorithm was known (Kaplan et al., 2021; Cohen & Lyu, 2023).
翻訳日:2024-05-30 22:03:07 公開日:2024-05-28
# 固体スピン量子ビットのデコヒーレンス:計算的視点

Decoherence of solid-state spin qubits: a computational perspective ( http://arxiv.org/abs/2405.18535v1 )

ライセンス: Link先を確認
Mykyta Onizhuk, Giulia Galli, (参考訳) 量子技術における固体スピンの有用性は、量子状態のコヒーレントな重ね合わせにどれだけ長く留まるかに依存する。 このColloquiumは、第一原理シミュレーションが様々な種類の固体電子スピンのスピンダイナミクスを予測し、量子コンピューティング、ネットワーク、センシングのための新しいプラットフォームの設計と改善を支援する方法について論じている。 まず、一般的な量子システムに影響を及ぼすノイズの必要な概念を概説する。 次に、スピン欠陥量子ビットのスピンフォノン緩和を予測する最近の進歩に焦点を当てる。 次に,スピンスピン相互作用によって引き起こされる量子デコヒーレンスをシミュレーションするためのクラスタ法について議論し,これらのシミュレーションの精度を保証する上での検証の重要性を強調する。 我々は、最近の実験結果の解釈において、検証されたクラスタ法がどのように有効かを強調し、さらに重要なことは、新しいスピンベースの量子プラットフォームにおけるコヒーレンス特性を予測し、次世代量子技術の発展を導くことである。

The usefulness of solid-state spins in quantum technologies depends on how long they can remain in a coherent superposition of quantum states. This Colloquium discusses how first-principles simulations can predict spin dynamics for different types of solid-state electron spins, helping design novel and improved platforms for quantum computing, networking, and sensing. We begin by outlining the necessary concepts of the noise affecting generic quantum systems. We then focus on recent advances in predicting spin-phonon relaxation of the spin-defect qubits. Next, we discuss cluster methods as a means of simulating quantum decoherence induced by spin-spin interactions, emphasizing the critical role of validation in ensuring the accuracy of these simulations. We highlight how validated cluster methods can be instrumental in interpreting recent experimental results and, more importantly, predicting the coherence properties of novel spin-based quantum platforms, guiding the development of next-generation quantum technologies.
翻訳日:2024-05-30 22:03:07 公開日:2024-05-28
# ドメイン反転ニューラルプロセスを用いた機械的循環支援のためのデータ駆動シミュレータ

Data-Driven Simulator for Mechanical Circulatory Support with Domain Adversarial Neural Process ( http://arxiv.org/abs/2405.18536v1 )

ライセンス: Link先を確認
Sophia Sun, Wenyuan Chen, Zihao Zhou, Sonia Fereidooni, Elise Jortberg, Rose Yu, (参考訳) 確率的ディープシークエンスモデルとして実装されたMCS(Mechanical Circulatory Support)デバイス。 MCSの既存の機械シミュレータは、仮定の単純化に依存しており、患者固有の振る舞いに敏感であり、実際の治療シナリオに適用性を制限する。 これらの欠点に対処するために、我々のモデルであるDomain Adversarial Neural Process (DANP)は、ニューラルネットワークアーキテクチャを用いて、MCSポンプレベルと不確実性を伴う大動脈圧測定との確率的関係をキャプチャする。 我々は、シミュレーションデータと実世界の観測データを組み合わせるために、ドメインの敵対的トレーニングを使用し、その結果、より現実的で多様な潜在的な結果が表現される。 非定常的傾向予測の19%の改善による経験的結果は、臨床医がMCS患者の治療について理解し、決定を下すための効果的なツールとしてDANPを確立した。

Mechanical Circulatory Support (MCS) devices, implemented as a probabilistic deep sequence model. Existing mechanical simulators for MCS rely on oversimplifying assumptions and are insensitive to patient-specific behavior, limiting their applicability to real-world treatment scenarios. To address these shortcomings, our model Domain Adversarial Neural Process (DANP) employs a neural process architecture, allowing it to capture the probabilistic relationship between MCS pump levels and aortic pressure measurements with uncertainty. We use domain adversarial training to combine simulation data with real-world observations, resulting in a more realistic and diverse representation of potential outcomes. Empirical results with an improvement of 19% in non-stationary trend prediction establish DANP as an effective tool for clinicians to understand and make informed decisions regarding MCS patient treatment.
翻訳日:2024-05-30 22:03:07 公開日:2024-05-28
# ARにおける組込み音声駆動オンザフライ参照による拡張会話

Augmented Conversation with Embedded Speech-Driven On-the-Fly Referencing in AR ( http://arxiv.org/abs/2405.18537v1 )

ライセンス: Link先を確認
Shivesh Jadon, Mehrad Faridan, Edward Mah, Rajan Vaish, Wesley Willett, Ryo Suzuki, (参考訳) 本稿では,拡張現実(AR)における組込み音声駆動のオンザフライ参照を通じて,共同会話を支援することを目的とした,拡張現実の概念を紹介する。 今日、スマートフォンのようなコンピューティング技術は、会話中に様々な参照に素早くアクセスできる。 しかし、これらのツールはしばしば注意をそらし、アイコンタクトを減らし、ユーザーは携帯電話の画面に注意を集中させ、関連する情報にアクセスするためにキーワードを手入力する。 対照的に、ARベースのオンザフライ参照は、音声会話から自動的に抽出されるキーワードに基づいて、リアルタイムで関連する視覚的参照を提供する。 これらの視覚的参照を会話パートナーの周囲に埋め込むことで、強化された会話は混乱と摩擦を減らし、ユーザーはアイコンタクトを維持し、より自然なソーシャルインタラクションをサポートすることができる。 この概念を実証するために,実時間音声認識,自然言語処理,視線に基づく対話を利用したホロレンスベースのインタフェースである \system を開発した。 本稿では,ユーザ中心の設計プロセスを通じて識別された7つの設計ガイドラインに基づいて,会話の視覚的参照の設計空間について検討し,我々の実装について述べる。 最初のユーザ調査では、スマートフォンの検索に比べて会話の邪魔や摩擦を減らし、非常に有用で関連性の高い情報を提供する。

This paper introduces the concept of augmented conversation, which aims to support co-located in-person conversations via embedded speech-driven on-the-fly referencing in augmented reality (AR). Today computing technologies like smartphones allow quick access to a variety of references during the conversation. However, these tools often create distractions, reducing eye contact and forcing users to focus their attention on phone screens and manually enter keywords to access relevant information. In contrast, AR-based on-the-fly referencing provides relevant visual references in real-time, based on keywords extracted automatically from the spoken conversation. By embedding these visual references in AR around the conversation partner, augmented conversation reduces distraction and friction, allowing users to maintain eye contact and supporting more natural social interactions. To demonstrate this concept, we developed \system, a Hololens-based interface that leverages real-time speech recognition, natural language processing and gaze-based interactions for on-the-fly embedded visual referencing. In this paper, we explore the design space of visual referencing for conversations, and describe our our implementation -- building on seven design guidelines identified through a user-centered design process. An initial user study confirms that our system decreases distraction and friction in conversations compared to smartphone searches, while providing highly useful and relevant information.
翻訳日:2024-05-30 22:03:07 公開日:2024-05-28
# モデル駆動工学における自動化の過去、現在、そして未来

The Past, Present, and Future of Automation in Model-Driven Engineering ( http://arxiv.org/abs/2405.18539v1 )

ライセンス: Link先を確認
Lola Burgueño, Davide Di Ruscio, Houari Sahraoui, Manuel Wimmer, (参考訳) モデル駆動エンジニアリング(MDE)は多くの異なるエンジニアリングタスク、特に設計から実装への移行に関わる自動化に関する膨大な知識を提供する。 人工知能(AI)技術に関する大きな進歩により、既存のMDE技術や技術をどのように改善できるか、あるいは現在専用のサポートを欠いている他のアクティビティも自動化できるかといった、MDEの将来に対する疑問が持ち上がる。 しかし同時に、複雑なシステムの作成、運用、保守のために、エンジニアのループを維持するためにモデルをどこに、どのように使用するべきかを再検討する必要がある。 これらのオープンポイントに関する専門的な研究のきっかけとして、MDEにおける自動化の歴史と、MDEにおける自動化をさらに改善し、中長期的視点において障害を克服しなければならないかという視点について論じる。

Model-Driven Engineering (MDE) provides a huge body of knowledge of automation for many different engineering tasks, especially those involving transitioning from design to implementation. With the huge progress made on Artificial Intelligence (AI) techniques, questions arise for the future of MDE such as how existing MDE techniques and technologies can be improved or how other activities which currently lack dedicated support can also be automated. However, at the same time, it has to be revisited where and how models should be used to keep the engineers in the loop for creating, operating, and maintaining complex systems. To trigger dedicated research on these open points, we discuss the history of automation in MDE and present perspectives on how automation in MDE can be further improved and which obstacles have to be overcome in the medium and long term perspective.
翻訳日:2024-05-30 22:03:07 公開日:2024-05-28
# 堅牢なレッドチームと安全チューニングのための大規模言語モデルに対する多様な攻撃学習

Learning diverse attacks on large language models for robust red-teaming and safety tuning ( http://arxiv.org/abs/2405.18540v1 )

ライセンス: Link先を確認
Seanie Lee, Minsu Kim, Lynn Cherif, David Dobre, Juho Lee, Sung Ju Hwang, Kenji Kawaguchi, Gauthier Gidel, Yoshua Bengio, Nikolay Malkin, Moksh Jain, (参考訳) レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大規模言語モデル(LLM)の安全かつ責任あるデプロイを保証するための重要なステップである。 多くの攻撃プロンプトに対する効果的な防御を開発するには、多様な攻撃を発見する必要がある。 自動化されたレッドチームは通常、例えば補助毒性分類器によって測定されたように、強化学習を使用して攻撃言語モデルを微調整し、ターゲットのLSMから望ましくない応答を誘発するプロンプトを生成する。 新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。 フレキシブルで確率論的に原理化された代替手段として,GFlowNetの微調整と二次平滑化フェーズを併用して,多種多様な効果的な攻撃プロンプトを生成するようアタッカーモデルを訓練することを提案する。 提案手法により生成された攻撃は,安全チューニングと遠隔操作の両方で広範囲のLLMに対して有効であり,目標LLM間での移動が良好であることがわかった。 最後に,提案手法により生成したレッドチームプロンプトのデータセットを用いて,安全チューニングされたモデルが,他のRLベースのレッドチームアプローチからの攻撃に対して堅牢であることを示す。

Red-teaming, or identifying prompts that elicit harmful responses, is a critical step in ensuring the safe and responsible deployment of large language models (LLMs). Developing effective protection against many modes of attack prompts requires discovering diverse attacks. Automated red-teaming typically uses reinforcement learning to fine-tune an attacker language model to generate prompts that elicit undesirable responses from a target LLM, as measured, for example, by an auxiliary toxicity classifier. We show that even with explicit regularization to favor novelty and diversity, existing approaches suffer from mode collapse or fail to generate effective attacks. As a flexible and probabilistically principled alternative, we propose to use GFlowNet fine-tuning, followed by a secondary smoothing phase, to train the attacker model to generate diverse and effective attack prompts. We find that the attacks generated by our method are effective against a wide range of target LLMs, both with and without safety tuning, and transfer well between target LLMs. Finally, we demonstrate that models safety-tuned using a dataset of red-teaming prompts generated by our method are robust to attacks from other RL-based red-teaming approaches.
翻訳日:2024-05-30 21:53:22 公開日:2024-05-28
# ビジョンランゲージモデルの低ランクFew-Shot適応

Low-Rank Few-Shot Adaptation of Vision-Language Models ( http://arxiv.org/abs/2405.18541v1 )

ライセンス: Link先を確認
Maxime Zanella, Ismail Ben Ayed, (参考訳) VLM(Vision-Language Models)の少数の適応の最近の進歩は、目標下流タスクにおいてわずか数個のラベル付きサンプルを犠牲にして、その一般化能力をさらに推し進めている。 しかし、この有望な、既にかなりの数ショットの文献は、主に迅速な学習に焦点を合わせており、より少ない範囲において、パラメータ効率の良いファインチューニング(PEFT)の最近の進歩を見越して、アダプタに焦点をあてている。 さらに、VLMの既存の数発の学習手法は、重い訓練手順と/または慎重に選択されたタスク固有のハイパーパラメータに依存しており、それらの適用性を阻害する可能性がある。 これに対し、VLMのための数ショット学習においてローランド適応(LoRA)を導入し、現在の最先端のプロンプトとアダプタベースのアプローチと比較して、11のデータセットにその可能性を示す。 驚くべきことに、私たちの単純なCLIP-LoRAメソッドは、トレーニング時間を短縮し、すべてのターゲットタスク、すなわち、すべてのデータセットとショット数に同じハイパーパラメータを保持するとともに、大幅に改善されている。 もちろん、我々の驚くべき結果は、迅速な学習とアダプタベースの研究の可能性を否定するものではない。 しかし,本研究の強力なベースラインは,これらの突発性被験者の経過を数発のVLMで評価するのに有効であると考えられた。

Recent progress in the few-shot adaptation of Vision-Language Models (VLMs) has further pushed their generalization capabilities, at the expense of just a few labeled samples within the target downstream task. However, this promising, already quite abundant few-shot literature has focused principally on prompt learning and, to a lesser extent, on adapters, overlooking the recent advances in Parameter-Efficient Fine-Tuning (PEFT). Furthermore, existing few-shot learning methods for VLMs often rely on heavy training procedures and/or carefully chosen, task-specific hyper-parameters, which might impede their applicability. In response, we introduce Low-Rank Adaptation (LoRA) in few-shot learning for VLMs, and show its potential on 11 datasets, in comparison to current state-of-the-art prompt- and adapter-based approaches. Surprisingly, our simple CLIP-LoRA method exhibits substantial improvements, while reducing the training times and keeping the same hyper-parameters in all the target tasks, i.e., across all the datasets and numbers of shots. Certainly, our surprising results do not dismiss the potential of prompt-learning and adapter-based research. However, we believe that our strong baseline could be used to evaluate progress in these emergent subjects in few-shot VLMs.
翻訳日:2024-05-30 21:53:22 公開日:2024-05-28
# 自然言語処理機能を有するエンターテイメントチャットボットを用いた高齢者の認知障害の自動検出

Automatic detection of cognitive impairment in elderly people using an entertainment chatbot with Natural Language Processing capabilities ( http://arxiv.org/abs/2405.18542v1 )

ライセンス: Link先を確認
Francisco de Arriba-Pérez, Silvia García-Méndez, Francisco J. González-Castaño, Enrique Costa-Montenegro, (参考訳) 従来の研究者は認知障害の治療モニタリングのためのインテリジェントシステムを提案してきた。 しかし、この目的のための既存の実践的なアプローチは手動テストに基づいている。 これにより、過剰なケアやホワイトコート効果などの問題が発生する。 これらの問題を回避するため,高齢者の関心を喚起し,認知障害を透過的に監視するインテリジェントな会話システムを提案する。 自動チャットボット対話は、コンテンツ記述スキルの評価と機械学習アルゴリズムによる認知障害の検出を可能にする。 我々は、自然言語生成技術を用いて、更新されたニュース項目からこれらの対話フローを自動生成する。 このシステムは、質問に対する回答のゴールドスタンダードも推論するので、これらの回答とユーザ応答を比べることで、認知能力を自動的に評価することができる。 類似度は[0, 1]の値を持つ類似度で、類似度のレベルが増加する。 本研究は,認知症早期の高齢者30名を対象に,老年医学者の指導のもと,フィールドテストを実施した。 実験では, 利用者のストレスと集中度を解析した。 認知障害のない患者は最大で5倍の成績を示した。 特に類似度は、ストレスや集中していない参加者の0.03と、リラックスしたユーザーと集中したユーザーの0.36と様々である。 最後に、自動認知障害検出のためのテキスト解析機能に基づく機械学習アルゴリズムを開発し、精度、F測定、リコールレベルを80%以上とした。 そこで我々は,エンターテイメントコンテンツに基づく高齢者の認知障害の自動検出手法を検証した。

Previous researchers have proposed intelligent systems for therapeutic monitoring of cognitive impairments. However, most existing practical approaches for this purpose are based on manual tests. This raises issues such as excessive caretaking effort and the white-coat effect. To avoid these issues, we present an intelligent conversational system for entertaining elderly people with news of their interest that monitors cognitive impairment transparently. Automatic chatbot dialogue stages allow assessing content description skills and detecting cognitive impairment with Machine Learning algorithms. We create these dialogue flows automatically from updated news items using Natural Language Generation techniques. The system also infers the gold standard of the answers to the questions, so it can assess cognitive capabilities automatically by comparing these answers with the user responses. It employs a similarity metric with values in [0, 1], in increasing level of similarity. To evaluate the performance and usability of our approach, we have conducted field tests with a test group of 30 elderly people in the earliest stages of dementia, under the supervision of gerontologists. In the experiments, we have analysed the effect of stress and concentration in these users. Those without cognitive impairment performed up to five times better. In particular, the similarity metric varied between 0.03, for stressed and unfocused participants, and 0.36, for relaxed and focused users. Finally, we developed a Machine Learning algorithm based on textual analysis features for automatic cognitive impairment detection, which attained accuracy, F-measure and recall levels above 80%. We have thus validated the automatic approach to detect cognitive impairment in elderly people based on entertainment content.
翻訳日:2024-05-30 21:53:22 公開日:2024-05-28
# CAPTCHAの利用者認識 : 大学とインターネット利用者の比較研究

User Perception of CAPTCHAs: A Comparative Study between University and Internet Users ( http://arxiv.org/abs/2405.18547v1 )

ライセンス: Link先を確認
Arun Reddy, Yuan Cheng, (参考訳) CAPTCHAは、ウェブ上の人間とボットのユーザーを区別するために一般的に使用される。 しかし、さまざまなタイプのCAPTCHAを持っているにもかかわらず、セキュリティとユーザビリティについてはまだ懸念されている。 これらの懸念に対処するため、大学キャンパスとAmazon Mechanical Turkから250人以上の参加者を調査した。 私たちの目標は、現在のCAPTCHA実装のセキュリティとユーザビリティに関するユーザの認識を集めることです。 統計的・理論的手法を用いてデータを解析した結果,難易度の増加による現在のCAPTCHA課題のナビゲートに苦慮していることが判明した。 その結果、ユーザエクスペリエンスに悪影響を及ぼすフラストレーションを経験する。 さらに、参加者はこれらのシステムの信頼性とセキュリティについて懸念を表明した。 私たちの発見は、よりセキュアでユーザフレンドリなCAPTCHA技術を作成する上で、貴重な洞察を与えることができます。

CAPTCHAs are commonly used to distinguish between human and bot users on the web. However, despite having various types of CAPTCHAs, there are still concerns about their security and usability. To address these concerns, we surveyed over 250 participants from a university campus and Amazon Mechanical Turk. Our goal was to gather user perceptions regarding the security and usability of current CAPTCHA implementations. After analyzing the data using statistical and thematic methods, we found that users struggle to navigate current CAPTCHA challenges due to increasing difficulty levels. As a result, they experience frustration, which negatively impacts their user experience. Additionally, participants expressed concerns about the reliability and security of these systems. Our findings can offer valuable insights for creating more secure and user-friendly CAPTCHA technologies.
翻訳日:2024-05-30 21:53:22 公開日:2024-05-28
# エンコーダオンリー変圧器の形式推論の計算複雑性

The Computational Complexity of Formal Reasoning for Encoder-Only Transformers ( http://arxiv.org/abs/2405.18548v1 )

ライセンス: Link先を確認
Marco Sälzer, Eric Alsmann, Martin Lange, (参考訳) 本研究では,エンコーダのみの変圧器(EOT)の形式的推論の課題と可能性について検討する。 本稿では,自然発生型満足度問題(SAT)の形で,関連する形式的推論タスクを凝縮する。 EOTを考えるとSATは決定不可能であり,表現性コミュニティでは一般的に考慮されている。 さらに,SATが決定可能な現実シナリオを特定し,それに対応する複雑性境界を確立する。 自明なケースの他に、量子化されたEOT、すなわち固定幅の算術で制限されたEOTは、その注意力の制限によりSATの決定可能性に繋がる。 しかし、SAT が NEXPTIME ハードなシナリオと、量子化された EOT に対して NEXPTIME で解決可能であることを示すシナリオを確立することは困難である。 理論的結果を補完するため, フォーマルな推論の全体的視点において, 研究結果とその意義を考察した。

We investigate challenges and possibilities of formal reasoning for encoder-only transformers (EOT), meaning sound and complete methods for verifying or interpreting behaviour. In detail, we condense related formal reasoning tasks in the form of a naturally occurring satisfiability problem (SAT). We find that SAT is undecidable if we consider EOT, commonly considered in the expressiveness community. Furthermore, we identify practical scenarios where SAT is decidable and establish corresponding complexity bounds. Besides trivial cases, we find that quantized EOT, namely those restricted by some fixed-width arithmetic, lead to the decidability of SAT due to their limited attention capabilities. However, the problem remains difficult, as we establish those scenarios where SAT is NEXPTIME-hard and those where we can show that it is solvable in NEXPTIME for quantized EOT. To complement our theoretical results, we put our findings and their implications in the overall perspective of formal reasoning.
翻訳日:2024-05-30 21:53:22 公開日:2024-05-28
# 不確実なデータから学ぶ:可能な世界から可能なモデルへ

Learning from Uncertain Data: From Possible Worlds to Possible Models ( http://arxiv.org/abs/2405.18549v1 )

ライセンス: Link先を確認
Jiongli Zhu, Su Feng, Boris Glavic, Babak Salimi, (参考訳) 本研究では,不確実なデータから線形モデルを効率よく学習する方法を提案する。 提案手法では,コンベックスポリトープの一種である抽象解釈とゾノトープを用いて,これらのデータセットの変動をコンパクトに表現し,すべての可能な世界に対する勾配勾配のシンボリックな実行を可能にする。 我々は、この過程が固定点に収束することを保証する技術を開発し、この固定点に対する閉形式解を導出する。 提案手法は,全ての可能な最適モデルと予測範囲を過度に近似する。 提案手法の有効性を理論的および経験的分析により実証し,データ品質の問題によるモデルと予測の不確実性について推論する可能性を明らかにする。

We introduce an efficient method for learning linear models from uncertain data, where uncertainty is represented as a set of possible variations in the data, leading to predictive multiplicity. Our approach leverages abstract interpretation and zonotopes, a type of convex polytope, to compactly represent these dataset variations, enabling the symbolic execution of gradient descent on all possible worlds simultaneously. We develop techniques to ensure that this process converges to a fixed point and derive closed-form solutions for this fixed point. Our method provides sound over-approximations of all possible optimal models and viable prediction ranges. We demonstrate the effectiveness of our approach through theoretical and empirical analysis, highlighting its potential to reason about model and prediction uncertainty due to data quality issues in training data.
翻訳日:2024-05-30 21:53:22 公開日:2024-05-28
# ニューラルネットワークのスムーズなl0正規化によるエントロピー誤差関数のSGD法

SGD method for entropy error function with smoothing l0 regularization for neural networks ( http://arxiv.org/abs/2405.18552v1 )

ライセンス: Link先を確認
Trong-Tuan Nguyen, Van-Dat Thang, Nguyen Van Thin, Phuong T. Nguyen, (参考訳) エントロピー誤差関数はニューラルネットワークで広く使われている。 それでも、この誤差関数に基づくネットワークトレーニングは、一般的に、収束速度が遅くなり、局所的な最小値や、実際には不正な飽和問題にも容易に閉じ込められる。 実際、ニューラルネットワークとその応用におけるエントロピー誤差関数に基づく多くの結果が存在する。 しかし、そのようなアルゴリズムの理論とその収束は、今のところ完全には研究されていない。 そこで本研究では,フィードフォワードニューラルネットワークにおけるl0正規化を円滑に行うエントロピー関数を提案する。 実世界のデータセットを用いて、新たに考案されたアルゴリズムが、検討されたニューラルネットワークの予測性能を大幅に改善できることを示す実験的な評価を行った。 さらに, 実験結果から, 提案した関数は, 十分に確立されたベースラインに比べて, より正確な分類をもたらすことが明らかとなった。 ニューラルネットワークを効果的に学習し、最先端のアルゴリズムと比較してより正確な予測を生成するため、我々の研究は新しくなっています。 この点に関して、このアルゴリズムはこの分野の既存の研究に貢献し、機械学習とディープラーニングの研究を進めていくことを期待する。

The entropy error function has been widely used in neural networks. Nevertheless, the network training based on this error function generally leads to a slow convergence rate, and can easily be trapped in a local minimum or even with the incorrect saturation problem in practice. In fact, there are many results based on entropy error function in neural network and its applications. However, the theory of such an algorithm and its convergence have not been fully studied so far. To tackle the issue, we propose a novel entropy function with smoothing l0 regularization for feed-forward neural networks. Using real-world datasets, we performed an empirical evaluation to demonstrate that the newly conceived algorithm allows us to substantially improve the prediction performance of the considered neural networks. More importantly, the experimental results also show that our proposed function brings in more precise classifications, compared to well-founded baselines. Our work is novel as it enables neural networks to learn effectively, producing more accurate predictions compared to state-of-the-art algorithms. In this respect, we expect that the algorithm will contribute to existing studies in the field, advancing research in Machine Learning and Deep Learning.
翻訳日:2024-05-30 21:53:22 公開日:2024-05-28
# FAIIRツール: 若者のメンタルヘルスサービス提供のための会話型AIエージェントアシスタント

The FAIIR Tool: A Conversational AI Agent Assistant for Youth Mental Health Service Provision ( http://arxiv.org/abs/2405.18553v1 )

ライセンス: Link先を確認
Stephen Obadinma, Alia Lachana, Maia Norman, Jocelyn Rankin, Joanna Yu, Xiaodan Zhu, Darren Mastropaolo, Deval Pandya, Roxana Sultan, Elham Dolatabadi, (参考訳) 世界の医療システムとメンタルヘルス機関は、限られた資源の同時挑戦とともに、若者のメンタルヘルスサービスへの需要が高まっている。 これらの制約を踏まえ、本研究は、ドメイン適応型および微調整型トランスフォーマーモデルのアンサンブルであるFAIIR(Frontline Assistant: Issue Identification and Recommendation)ツールの作成と評価において、自然言語処理を活用し、若者が経験している可能性のある問題を識別する。 本研究では,FAIIRツールに活用される技術開発,性能,検証プロセスについて,キッズヘルプ電話による最前線危機対応の状況に適用する。 フロントライン危機応答器は、各会話に従って定義されたリストからイシュータグを割り当てる。 関連性の問題の特定の支援は、CRの負担を軽減し、適切な資源を提供し、アクティブな救助や強制的な報告が即時エスカレーションを必要とする重要な状況で実施されることを保証する。

World's healthcare systems and mental health agencies face both a growing demand for youth mental health services, alongside a simultaneous challenge of limited resources. Given these constraints, this work presents our experience in the creation and evaluation of the FAIIR (Frontline Assistant: Issue Identification and Recommendation) tool, an ensemble of domain-adapted and fine-tuned transformer models, leveraging natural language processing to identify issues that youth may be experiencing. We explore the technical development, performance, and validation processes leveraged for the FAIIR tool in application to situations of frontline crisis response via Kids Help Phone. Frontline Crisis Responders assign an issue tag from a defined list following each conversation. Assisting with the identification of issues of relevance helps reduce the burden on CRs, ensuring that appropriate resources can be provided and that active rescues and mandatory reporting can take place in critical situations requiring immediate de-escalation.
翻訳日:2024-05-30 21:53:22 公開日:2024-05-28
# 合成とアンローリングを用いた画像ベースニューラルネットワーク制御系のスケーラブルなサロゲート検証

Scalable Surrogate Verification of Image-based Neural Network Control Systems using Composition and Unrolling ( http://arxiv.org/abs/2405.18554v1 )

ライセンス: Link先を確認
Feiyang Cai, Chuchu Fan, Stanley Bak, (参考訳) 入力としてイメージを使用するニューラルネットワーク制御システムの安全性を検証することは難しい問題である。 本研究では,実世界に代わって条件付き生成逆数ネットワーク(cGAN)をイメージジェネレータとして訓練し,サロゲート検証アプローチを考慮した最近の研究に基づいて構築する。 これにより、クローズドループシステムの集合ベースの形式解析が可能となり、シミュレーションやテスト以外の分析が可能になる。 既存の作業は小さな例では有効であるが、過剰なオーバー近似は単一の制御期間と複数の制御期間の両方でそのスケーラビリティを制限している。 この2つの誤りの原因を克服する手法を提案する。 まず,システムダイナミクスの単調解析のように入力状態と制御出力の依存関係を失うことなく,cGANやニューラルネットワークコントローラとともにシステムのダイナミクスを構成することで,一段階誤差を克服する。 第2に、制御ループの複数のステップを大規模ニューラルネットワークにアンロールする単一ステップ構成を繰り返すことで、マルチステップエラーを低減する。 次に、既存のネットワーク検証ツールを活用して、複数のステップの正確な到達可能な集合を計算し、各ステップにおける抽象化エラーの蓄積を避ける。 本稿では,自律型航空機タクシーシステムと高度緊急制動システムという2つのケーススタディを用いて,精度とスケーラビリティの両面からアプローチの有効性を実証する。 航空機のタクシーシステムでは, 従来のベースライン方式に比べて, 収束到達可能セットが175%大きい。 緊急制動システムでは, cGANからの画像出力変数の24倍の回数で, ベースライン法はどの状態も安全であることを示すのに失敗する。

Verifying safety of neural network control systems that use images as input is a difficult problem because, from a given system state, there is no known way to mathematically model what images are possible in the real-world. We build on recent work that considers a surrogate verification approach, training a conditional generative adversarial network (cGAN) as an image generator in place of the real world. This enables set-based formal analysis of the closed-loop system, providing analysis beyond simulation and testing. While existing work is effective on small examples, excessive overapproximation both within a single control period and across multiple control periods limits its scalability. We propose approaches to overcome these two sources of error. First, we overcome one-step error by composing the system's dynamics along with the cGAN and neural network controller, without losing the dependencies between input states and the control outputs as in the monotonic analysis of the system dynamics. Second, we reduce multi-step error by repeating the single-step composition, essentially unrolling multiple steps of the control loop into a large neural network. We then leverage existing network verification tools to compute accurate reachable sets for multiple steps, avoiding the accumulation of abstraction error at each step. We demonstrate the effectiveness of our approach in terms of both accuracy and scalability using two case studies: an autonomous aircraft taxiing system and an advanced emergency braking system. On the aircraft taxiing system, the converged reachable set is 175% larger using the prior baseline method compared with our proposed approach. On the emergency braking system, with 24x the number of image output variables from the cGAN, the baseline method fails to prove any states are safe, whereas our improvements enable set-based safety analysis.
翻訳日:2024-05-30 21:53:22 公開日:2024-05-28
# 動的治療レジームにおける強化学習 : 批判的再検討の必要性

Reinforcement Learning in Dynamic Treatment Regimes Needs Critical Reexamination ( http://arxiv.org/abs/2405.18556v1 )

ライセンス: Link先を確認
Zhiyao Luo, Yangchen Pan, Peter Watkinson, Tingting Zhu, (参考訳) 急速に変化する医療分野では、動的治療体制(DTR)におけるオフライン強化学習(RL)の実装は、前例のない機会と課題の混在を示している。 本稿では、DTRの文脈におけるオフラインRLの現状を批判的に検証する。 本稿では,DTRにRLを適用することの再評価について論じる。不整合性,潜在的に不整合性評価指標,ナイーブおよび教師あり学習ベースラインの欠如,既存研究におけるRL定式化の選択の多様さなどの懸念を引用する。 公開されているSepsisデータセットを用いて17,000以上の評価実験を行ったケーススタディにより、RLアルゴリズムの性能は評価指標の変化やマルコフ決定プロセス(MDP)の定式化と大きく異なることを示した。 驚いたことに、いくつかのケースでは、RLアルゴリズムはポリシー評価手法や報酬設計に従属するランダムなベースラインによって超えることができる。 これにより、将来のDTRにおけるより慎重な政策評価とアルゴリズム開発が求められている。 さらに,RLに基づく動的治療体制の信頼性向上に向けた可能性についても検討し,コミュニティ内でさらなる議論を招いた。 コードはhttps://github.com/GilesLuo/ReassessDTRで入手できる。

In the rapidly changing healthcare landscape, the implementation of offline reinforcement learning (RL) in dynamic treatment regimes (DTRs) presents a mix of unprecedented opportunities and challenges. This position paper offers a critical examination of the current status of offline RL in the context of DTRs. We argue for a reassessment of applying RL in DTRs, citing concerns such as inconsistent and potentially inconclusive evaluation metrics, the absence of naive and supervised learning baselines, and the diverse choice of RL formulation in existing research. Through a case study with more than 17,000 evaluation experiments using a publicly available Sepsis dataset, we demonstrate that the performance of RL algorithms can significantly vary with changes in evaluation metrics and Markov Decision Process (MDP) formulations. Surprisingly, it is observed that in some instances, RL algorithms can be surpassed by random baselines subjected to policy evaluation methods and reward design. This calls for more careful policy evaluation and algorithm development in future DTR works. Additionally, we discussed potential enhancements toward more reliable development of RL-based dynamic treatment regimes and invited further discussion within the community. Code is available at https://github.com/GilesLuo/ReassessDTR.
翻訳日:2024-05-30 21:53:22 公開日:2024-05-28
# ポテンシャル場に基づくDeep Metric Learning

Potential Field Based Deep Metric Learning ( http://arxiv.org/abs/2405.18560v1 )

ライセンス: Link先を確認
Shubhang Bhatnagar, Narendra Ahuja, (参考訳) ディープ・メトリック・ラーニング(DML)は、意味的に意味のある表現空間を学ぶためにネットワークを訓練する。 現在の多くのアプローチは、各タプレット内の例とモデル相互作用のn-タプルをマイニングしている。 本稿では, 電場から着想を得た新しい構成DMLモデルを提案する。このモデルでは, タプルではなく, 連続ポテンシャル場による各例(埋め込み)の影響を表現し, それらの結合した大域ポテンシャル場を得るために, 電場を重畳する。 我々は、同じ/異なるクラスの画像からの埋め込み間の相互作用を表現するために、魅力的な/反発的なポテンシャル場を使用する。 サンプルの相互影響が距離に比例する典型的な学習法とは対照的に、距離による影響の低減を強制し、崩壊する分野へと導く。 このような減衰は,クラス内変動が大きく,ラベルノイズも大きい実世界のデータセットの性能向上に有効であることを示す。 他のプロキシベースのメソッドと同様に、プロキシを使ってサンプルのサブポピュレーションを簡潔に表現します。 本稿では,Cars-196,CUB-200-2011,SOPの3つの標準DMLベンチマークを用いて評価を行った。

Deep metric learning (DML) involves training a network to learn a semantically meaningful representation space. Many current approaches mine n-tuples of examples and model interactions within each tuplets. We present a novel, compositional DML model, inspired by electrostatic fields in physics that, instead of in tuples, represents the influence of each example (embedding) by a continuous potential field, and superposes the fields to obtain their combined global potential field. We use attractive/repulsive potential fields to represent interactions among embeddings from images of the same/different classes. Contrary to typical learning methods, where mutual influence of samples is proportional to their distance, we enforce reduction in such influence with distance, leading to a decaying field. We show that such decay helps improve performance on real world datasets with large intra-class variations and label noise. Like other proxy-based methods, we also use proxies to succinctly represent sub-populations of examples. We evaluate our method on three standard DML benchmarks- Cars-196, CUB-200-2011, and SOP datasets where it outperforms state-of-the-art baselines.
翻訳日:2024-05-30 21:53:22 公開日:2024-05-28
# トレーニングデータセットを持たない多変量時系列の因果的説明

Counterfactual Explanations for Multivariate Time-Series without Training Datasets ( http://arxiv.org/abs/2405.18563v1 )

ライセンス: Link先を確認
Xiangyu Sun, Raquel Aoki, Kevin H. Wilson, (参考訳) 機械学習(ML)手法は、過去10年間に著しい成長を遂げてきたが、ハイインパクトな現実世界のドメインにおける実践的応用は、その不透明さによって妨げられている。 MLメソッドが重要な決定を行う責任がある場合、ステークホルダは、これらの決定を変更する方法に関する洞察を必要とすることが多い。 対物的説明(CFE)はソリューションとして現れ、不透明なMLモデルの解釈を提供し、ある決定から別の決定への遷移経路を提供する。 しかし、既存のCFEメソッドの多くはモデルのトレーニングデータセットへのアクセスを必要としており、多変量時系列を処理できるメソッドはほとんどなく、トレーニングデータセットなしでは多変量時系列を処理できない。 これらの制限は多くのシナリオで恐ろしくできる。 本稿では、トレーニングデータセットが利用できない場合にCFEを生成する新しい強化学習ベースのCFE手法CFWoTを提案する。 CFWoTはモデルに依存しず、連続的および離散的な特徴を持つ静的および多変量時系列データセットに適している。 ユーザは、CFWoTが保証する因果制約だけでなく、非アクション可能、不変、および推奨の機能を指定できる柔軟性がある。 いくつかのデータセット上の4つのベースラインに対してCFWoTの性能を実証し、トレーニングデータセットにアクセスできないにもかかわらず、CFWoTは入力時系列の変更を著しく小さくするCFEを見つける。 これらの性質により、CFEは結果を変えるのに必要な変化の大きさが大幅に減少するので、より実用的なものとなる。

Machine learning (ML) methods have experienced significant growth in the past decade, yet their practical application in high-impact real-world domains has been hindered by their opacity. When ML methods are responsible for making critical decisions, stakeholders often require insights into how to alter these decisions. Counterfactual explanations (CFEs) have emerged as a solution, offering interpretations of opaque ML models and providing a pathway to transition from one decision to another. However, most existing CFE methods require access to the model's training dataset, few methods can handle multivariate time-series, and none can handle multivariate time-series without training datasets. These limitations can be formidable in many scenarios. In this paper, we present CFWoT, a novel reinforcement-learning-based CFE method that generates CFEs when training datasets are unavailable. CFWoT is model-agnostic and suitable for both static and multivariate time-series datasets with continuous and discrete features. Users have the flexibility to specify non-actionable, immutable, and preferred features, as well as causal constraints which CFWoT guarantees will be respected. We demonstrate the performance of CFWoT against four baselines on several datasets and find that, despite not having access to a training dataset, CFWoT finds CFEs that make significantly fewer and significantly smaller changes to the input time-series. These properties make CFEs more actionable, as the magnitude of change required to alter an outcome is vastly reduced.
翻訳日:2024-05-30 21:53:22 公開日:2024-05-28
# 量子力学と古典力学の変遷を探る

Exploring the transition between Quantum and Classical Mechanics ( http://arxiv.org/abs/2405.18564v1 )

ライセンス: Link先を確認
E. Aldo Arroyo, (参考訳) 量子力学から古典力学への遷移を1次元自由粒子モデルを用いて検討する。 古典的解析では、ガウス分布から引き出された粒子の初期位置と速度を考える。 粒子の最終的な位置はこれらの初期条件に依存するため、これらの初期条件に付随するガウス分布は最終位置の分布を与える。 量子シナリオでは、初期ガウス波パケットを用いて、時間進化は最後の波動関数を与え、そこから量子確率密度を与える。 量子確率密度は畳み込み定理から得られる粒子の最終位置の古典的正規分布と一致する。 しかし、ガウス分布の重ね合わせの場合、古典的および量子的結果は量子干渉によってずれる。 この問題に対処するために,古典分布を量子から復元する新しい手法を提案する。 このアプローチでは、切り離されたフーリエ解析により量子干渉効果を除去する。 これらの結果は現代の量子デコヒーレンス理論と一致している。 この包括的分析により、古典量子対応の理解と量子システムからの古典性の出現の基礎となるメカニズムが強化される。

We investigate the transition from quantum to classical mechanics using a one-dimensional free particle model. In the classical analysis, we consider the initial positions and velocities of the particle drawn from Gaussian distributions. Since the final position of the particle depends on these initial conditions, convolving the Gaussian distributions associated with these initial conditions gives us the distribution of the final positions. In the quantum scenario, using an initial Gaussian wave packet, the temporal evolution provides the final wave function, and from it, the quantum probability density. We find that the quantum probability density coincides with the classical normal distribution of the particle's final position obtained from the convolution theorem. However, for superpositions of Gaussian distributions, the classical and quantum results deviate due to quantum interference. To address this issue, we propose a novel approach to recover the classical distribution from the quantum one. This approach involves removing the quantum interference effects through truncated Fourier analysis. These results are consistent with modern quantum decoherence theory. This comprehensive analysis enhances our understanding of the classical-quantum correspondence and the mechanisms underlying the emergence of classicality from quantum systems.
翻訳日:2024-05-30 21:53:22 公開日:2024-05-28
# ウォームスタートPush-Relabel

Warm-starting Push-Relabel ( http://arxiv.org/abs/2405.18568v1 )

ライセンス: Link先を確認
Sami Davies, Sergei Vassilvitskii, Yuyan Wang, (参考訳) Push-Relabelは、最も有名なネットワークフローアルゴリズムの1つである。 カットを飽和させるプレフローを維持することで、Ford-Fulkersonのような他のフローアルゴリズムよりも理論的および経験的な実行時間を楽しむことができる。 実際には、Push-Relabelは理論的な保証が約束できるものよりも高速である。 しかし、Push-Relabelを任意の初期化で実行する方法は、必ずしもプレフローやカット飽和ではない。 我々は,予測フローでPush-Relabelを温めるための最初の理論的保証を提供する。 興味深いことに、我々のアルゴリズムは長い間使われてきたギャップを許容するヒューリスティックを使っており、我々の研究以前には、それが実行時改善に繋がる理由に関する厳密な理論的正当化は存在しなかった。 次に、ウォームスタートしたPush-Relabelが実際にうまく動作することを示す実験を紹介します。

Push-Relabel is one of the most celebrated network flow algorithms. Maintaining a pre-flow that saturates a cut, it enjoys better theoretical and empirical running time than other flow algorithms, such as Ford-Fulkerson. In practice, Push-Relabel is even faster than what theoretical guarantees can promise, in part because of the use of good heuristics for seeding and updating the iterative algorithm. However, it remains unclear how to run Push-Relabel on an arbitrary initialization that is not necessarily a pre-flow or cut-saturating. We provide the first theoretical guarantees for warm-starting Push-Relabel with a predicted flow, where our learning-augmented version benefits from fast running time when the predicted flow is close to an optimal flow, while maintaining robust worst-case guarantees. Interestingly, our algorithm uses the gap relabeling heuristic, which has long been employed in practice, even though prior to our work there was no rigorous theoretical justification for why it can lead to run-time improvements. We then provide experiments that show our warm-started Push-Relabel also works well in practice.
翻訳日:2024-05-30 21:53:22 公開日:2024-05-28
# モダリティギャップではない:コントラストギャップの特徴と対処

Its Not a Modality Gap: Characterizing and Addressing the Contrastive Gap ( http://arxiv.org/abs/2405.18570v1 )

ライセンス: Link先を確認
Abrar Fahim, Alex Murphy, Alona Fyshe, (参考訳) CLIPのようなマルチモーダルコントラストモデルは、入力画像とテキストを共同表現空間に埋め込むことで、ゼロショット分類における最先端の性能を達成する。 近年、CLIPのような2エンコーダのコントラストモデルではモダリティギャップが報告されている。 これまでの研究では、このギャップは存在することが示唆されている。 1)コーン効果 2)データセットのミスマッチペア,及び 3)訓練不足。 これらすべての要因を考慮に入れたとしても、同じモダリティを使用しても、対照的な損失は実際にトレーニング中にギャップを生じさせます。 その結果、モダリティギャップは2エンコーダのコントラスト損失に固有のものであり、コントラストギャップにリネームすることを提案した。 この対照的なギャップがCLIP空間の低均一性に起因する証拠を提示する。 このギャップを埋めるために, マルチモーダル・セッティングに不定形コントラスト損失の均一性とアライメント特性を適用し, これらの項をCLIP損失に追加するだけで, 表現空間内での埋め込みをより均一に分散し, ギャップを閉じることを示す。 実験では、ゼロショット画像分類やマルチモーダル演算などの下流タスクにおいて、修正された表現空間がデフォルトのCLIP損失よりも優れた性能を実現することを示す。

Multi-modal contrastive models such as CLIP achieve state-of-the-art performance in zero-shot classification by embedding input images and texts on a joint representational space. Recently, a modality gap has been reported in two-encoder contrastive models like CLIP, meaning that the image and text embeddings reside in disjoint areas of the latent space. Previous studies suggest that this gap exists due to 1) the cone effect, 2) mismatched pairs in the dataset, and 3) insufficient training. We show that, even when accounting for all these factors, and even when using the same modality, the contrastive loss actually creates a gap during training. As a result, We propose that the modality gap is inherent to the two-encoder contrastive loss and rename it the contrastive gap. We present evidence that attributes this contrastive gap to low uniformity in CLIP space, resulting in embeddings that occupy only a small portion of the latent space. To close the gap, we adapt the uniformity and alignment properties of unimodal contrastive loss to the multi-modal setting and show that simply adding these terms to the CLIP loss distributes the embeddings more uniformly in the representational space, closing the gap. In our experiments, we show that the modified representational space achieves better performance than default CLIP loss in downstream tasks such as zero-shot image classification and multi-modal arithmetic.
翻訳日:2024-05-30 21:53:22 公開日:2024-05-28
# LLMのための低ランクファインタニング:公平性の観点から

Low-rank finetuning for LLMs: A fairness perspective ( http://arxiv.org/abs/2405.18572v1 )

ライセンス: Link先を確認
Saswat Das, Marco Romanelli, Cuong Tran, Zarreen Reza, Bhavya Kailkhura, Ferdinando Fioretto, (参考訳) 低ランク近似技術は、計算とメモリの要求が減り、微調整された大規模言語モデル(LLM)のデファクトスタンダードとなっている。 本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。 その結果,このような変化を学習する際に,低ランク微調整が不足するケースがあることが判明した。 これは、特に、事前訓練されたモデルや公正なモデルを提供することが重要であるシナリオにおいて、毒性軽減のために微調整が採用される場合に、非無視的な副作用を生じる。 いくつかのモデル、データセット、タスクに関する総合的な実証的な証拠を通して、低ランクの微調整が好ましくないバイアスや有毒な振る舞いを必然的に保存することを示す。 また、これは、責任あるLCM開発を促進するための慎重な評価の必要性を強調しながら、シーケンシャルな意思決定タスクにまで拡張されることも示している。

Low-rank approximation techniques have become the de facto standard for fine-tuning Large Language Models (LLMs) due to their reduced computational and memory requirements. This paper investigates the effectiveness of these methods in capturing the shift of fine-tuning datasets from the initial pre-trained data distribution. Our findings reveal that there are cases in which low-rank fine-tuning falls short in learning such shifts. This, in turn, produces non-negligible side effects, especially when fine-tuning is adopted for toxicity mitigation in pre-trained models, or in scenarios where it is important to provide fair models. Through comprehensive empirical evidence on several models, datasets, and tasks, we show that low-rank fine-tuning inadvertently preserves undesirable biases and toxic behaviors. We also show that this extends to sequential decision-making tasks, emphasizing the need for careful evaluation to promote responsible LLMs development.
翻訳日:2024-05-30 21:43:38 公開日:2024-05-28
# コンテキスト認識型コードの要約におけるプログラマの視覚的注意

Programmer Visual Attention During Context-Aware Code Summarization ( http://arxiv.org/abs/2405.18573v1 )

ライセンス: Link先を確認
Aakash Bansal, Robert Wallace, Zachary Karas, Ningzhi Tang, Yu Huang, Toby Jia-Jun Li, Collin McMillan, (参考訳) Abridged: プログラマの注意は、プログラマがプログラミングタスクを追求する上で、ソースコードの一部を視覚的に重視することを示しています。 XY Javaプログラマは5つの大きなJavaプロジェクトから5時間のセッションで40のメソッドの要約を作成しました。 要約を書いている間、私たちは視線追跡装置を使ってプログラマの視覚的注意をマッピングしました。 また、各要約の質も評価する。 我々は、コンテキスト認識コードの要約中に、プログラマの注意の間で共通の振る舞いを定義する視線パターンとメトリクスを発見した。 具体的には,要約の質を維持しつつ,セッション中に多くのメソッドを要約するので,プログラマは単語の読み出しを著しく減らし(p<0.01)、単語の書き直しを著しく減らさなければなりません(p\textless0.03)。 また、参加者が見ているソースコードの量は、より高品質な要約と相関することがわかったが、この傾向は、しきい値を読み上げた後、要約の質が大幅に低下する(p<0.01)。 我々はまた、プログラマの注意に基づくコード要約のための最も文脈的な情報を提供するプロジェクトにおけるメソッドの種類についての洞察を集めた。 具体的には、プログラマが対象とするメソッドと同じクラス内でメソッドを見るのに多くの時間を費やしたことを観察した。 驚いたことに、プログラマは対象のメソッドのコールグラフのメソッドを見るのに、はるかに時間を費やすことができませんでした。 我々は,経験的観察がプログラマの注意をモデル化し,文脈認識によるソースコードの自動要約を改善するための将来の研究にどのように役立つかについて議論する。

Abridged: Programmer attention represents the visual focus of programmers on parts of the source code in pursuit of programming tasks. We conducted an in-depth human study with XY Java programmers, where each programmer generated summaries for 40 methods from five large Java projects over five one-hour sessions. We used eye-tracking equipment to map the visual attention of programmers while they wrote the summaries. We also rate the quality of each summary. We found eye-gaze patterns and metrics that define common behaviors between programmer attention during context-aware code summarization. Specifically, we found that programmers need to read significantly (p<0.01) fewer words and make significantly fewer revisits to words (p\textless0.03) as they summarize more methods during a session, while maintaining the quality of summaries. We also found that the amount of source code a participant looks at correlates with a higher quality summary, but this trend follows a bell-shaped curve, such that after a threshold reading more source code leads to a significant decrease (p<0.01) in the quality of summaries. We also gathered insight into the type of methods in the project that provide the most contextual information for code summarization based on programmer attention. Specifically, we observed that programmers spent a majority of their time looking at methods inside the same class as the target method to be summarized. Surprisingly, we found that programmers spent significantly less time looking at methods in the call graph of the target method. We discuss how our empirical observations may aid future studies towards modeling programmer attention and improving context-aware automatic source code summarization.
翻訳日:2024-05-30 21:43:38 公開日:2024-05-28
# SpecTra: マルチモーダル仕様の生成による言語モデルのコード翻訳能力の向上

SpecTra: Enhancing the Code Translation Ability of Language Models by Generating Multi-Modal Specifications ( http://arxiv.org/abs/2405.18574v1 )

ライセンス: Link先を確認
Vikram Nitin, Baishakhi Ray, (参考訳) 大規模言語モデル(LLM)は、重要な現実世界のアプリケーションを持つ自動コード翻訳のタスクにますます使われています。 しかし、既存のほとんどのアプローチでは、プログラムのソースコードのみを LLM への入力として使用しており、プログラムから抽出できる異なる種類の仕様を考慮していない。 本稿では、新しい自己整合性フィルタを用いて、与えられたプログラムから高品質な不変量、テストケース、自然言語記述を生成するマルチステージアプローチであるSpecTraを提案する。 SpecTraを2つのコード変換タスク(C to Rust,C to Go)で評価し、これらのタスクで人気の高い4つのLLMのパフォーマンスを最大10ポイント向上し、相対的に23%改善できることを示す。 コード翻訳におけるLCMの性能向上には,高品質な仕様作成が有望かつ効率的な方法である可能性が示唆された。

Large language models (LLMs) are increasingly being used for the task of automated code translation, which has important real-world applications. However, most existing approaches use only the source code of a program as an input to an LLM, and do not consider the different kinds of specifications that can be extracted from a program. In this paper, we propose SpecTra, a multi-stage approach that uses a novel self-consistency filter to first generate high-quality invariants, test cases, and natural language descriptions from a given program, and then uses these along with the source code to improve the quality of LLM-generated translations. We evaluate SpecTra on two code translation tasks - C to Rust, and C to Go - and show that it can enhance the performance of four popular LLMs on these tasks by up to 10 percentage points and a relative improvement of up to 23%. Our research suggests that generating high-quality specifications could be a promising and efficient way to improve the performance of LLMs for code translation.
翻訳日:2024-05-30 21:43:38 公開日:2024-05-28
# 最大構造弱凸関数の差分に対する単一ループ確率アルゴリズム

Single-loop Stochastic Algorithms for Difference of Max-Structured Weakly Convex Functions ( http://arxiv.org/abs/2405.18577v1 )

ライセンス: Link先を確認
Quanqi Hu, Qi Qi, Zhaosong Lu, Tianbao Yang, (参考訳) 本稿では,非滑らかな非凸問題のクラスを$\min_{x}[\max_{y\in Y}\phi(x,} の形で研究する。 y) - \max_{z\in Z}\psi(x, どちらも$\Phiです。 (x) = \max_{y\in Y}\phi(x, y)$と$\Psi (x)=\max_{z\in Z}\psi(x, z)$は弱凸関数であり、$\phi(x) である。 y), \psi(x, z)$ は、それぞれ$y$ と $z$ の点で強凹函数である。 研究されているが、シングルループ確率アルゴリズム、すなわち弱い凸関数と弱い凸 min-max 問題の違いが欠落している2つの問題群をカバーする。 本研究では,SMAGと呼ばれる確率論的モローエンベロープ近似勾配法を提案する。 この設計の鍵となる考え方は、原始変数と双対変数の確率勾配更新の1ステップだけを用いて、モローエンベロープの$\Phi, \Psi$の近似勾配を計算することである。 提案アルゴリズムの有効性を検証するために, 実証実験として, ROC曲線 (pAUC) 最適化の下で, 正未ラベル学習(PU) と部分領域について, 対向フェアネス正規化器を用いて実験を行った。

In this paper, we study a class of non-smooth non-convex problems in the form of $\min_{x}[\max_{y\in Y}\phi(x, y) - \max_{z\in Z}\psi(x, z)]$, where both $\Phi(x) = \max_{y\in Y}\phi(x, y)$ and $\Psi(x)=\max_{z\in Z}\psi(x, z)$ are weakly convex functions, and $\phi(x, y), \psi(x, z)$ are strongly concave functions in terms of $y$ and $z$, respectively. It covers two families of problems that have been studied but are missing single-loop stochastic algorithms, i.e., difference of weakly convex functions and weakly convex strongly-concave min-max problems. We propose a stochastic Moreau envelope approximate gradient method dubbed SMAG, the first single-loop algorithm for solving these problems, and provide a state-of-the-art non-asymptotic convergence rate. The key idea of the design is to compute an approximate gradient of the Moreau envelopes of $\Phi, \Psi$ using only one step of stochastic gradient update of the primal and dual variables. Empirically, we conduct experiments on positive-unlabeled (PU) learning and partial area under ROC curve (pAUC) optimization with an adversarial fairness regularizer to validate the effectiveness of our proposed algorithms.
翻訳日:2024-05-30 21:43:38 公開日:2024-05-28
# 公共技術と公共セクター

Public Technologies Transforming Work of the Public and the Public Sector ( http://arxiv.org/abs/2405.18579v1 )

ライセンス: Link先を確認
Seyun Kim, Bonnie Fan, Willa Yunqi Yang, Jessie Ramey, Sarah E Fox, Haiyi Zhu, John Zimmerman, Motahhare Eslami, (参考訳) 公共セクターが採用する技術は、さまざまなコミュニケーション手段と意思決定手段を創造することによって、公共機関の従業員の業務プラクティスを変革した。 業務領域の将来に関する最近の研究の多くは、公務員に対する技術進歩の影響に集中しているが、この分野に携わる外部利害関係者の業務実践への影響は未解明のままである。 本稿では,米国各地の建築部門が展開するOneStopというデジタルプラットフォームに注目し,様々なステップやサービスを,公務員と公務員とのオンライン接触の単一ポイントに統合することを目的とする。 地域事業主、建設プロセスの専門家、地域代表者、建設部員を含む22人の利害関係者との半構造化インタビューを図り、この技術移行がこれらの利害関係者の作業にどのように影響したかを考察した。 我々はOneStopの採用によって引き起こされる多面的視点と経験を観察する。 OneStopは、部署の従業員との対面関係の欠如により、現地のビジネスオーナーにとって不平等な慣行を悪化させた。 公共部門の従業員にとって、OneStopは、建築部門の優先順位と価値を表す作業プラクティスを標準化した。 本研究は, 技術移行における標準化, 平等, 株式に関する緊張関係と, 公共セクターにおける公平な実践に関する設計上の意味について考察する。

Technologies adopted by the public sector have transformed the work practices of employees in public agencies by creating different means of communication and decision-making. Although much of the recent research in the future of work domain has concentrated on the effects of technological advancements on public sector employees, the influence on work practices of external stakeholders engaging with this sector remains under-explored. In this paper, we focus on a digital platform called OneStop which is deployed by several building departments across the U.S. and aims to integrate various steps and services into a single point of online contact between public sector employees and the public. Drawing on semi-structured interviews with 22 stakeholders, including local business owners, experts involved in the construction process, community representatives, and building department employees, we investigate how this technology transition has impacted the work of these different stakeholders. We observe a multifaceted perspective and experience caused by the adoption of OneStop. OneStop exacerbated inequitable practices for local business owners due to a lack of face-to-face interactions with the department employees. For the public sector employees, OneStop standardized the work practices, representing the building department's priorities and values. Based on our findings, we discuss tensions around standardization, equality, and equity in technology transition, as well as design implications for equitable practices in the public sector.
翻訳日:2024-05-30 21:43:38 公開日:2024-05-28
# 産業における人工知能 4.0:産業システム統合の課題

Artificial Intelligence in Industry 4.0: A Review of Integration Challenges for Industrial Systems ( http://arxiv.org/abs/2405.18580v1 )

ライセンス: Link先を確認
Alexander Windmann, Philipp Wittenberg, Marvin Schieseck, Oliver Niggemann, (参考訳) 業界 4.0 では、CPS (Cyber-Physical Systems) は、予測保守や生産計画を含むアプリケーションに人工知能 (AI) が活用できる膨大なデータセットを生成する。 しかし、AIの可能性を実証しているにもかかわらず、製造業のような分野に広く採用されていることは依然として限られている。 システム統合、データ関連の問題、労働関連の問題の管理、信頼できるAIの確保などです。 定量的分析では、実践者にとって重要な課題とトピックが強調されるが、それでも学者によって十分に調査される必要がある。 本稿では,これらの課題に対する既存の解決策を簡潔に論じ,今後の研究への道筋を提案する。 この調査は、CPSにおけるAIの費用対効果を評価する実践者や、これらの緊急課題に対処することを目指す研究者のためのリソースとして役立ちたい。

In Industry 4.0, Cyber-Physical Systems (CPS) generate vast data sets that can be leveraged by Artificial Intelligence (AI) for applications including predictive maintenance and production planning. However, despite the demonstrated potential of AI, its widespread adoption in sectors like manufacturing remains limited. Our comprehensive review of recent literature, including standards and reports, pinpoints key challenges: system integration, data-related issues, managing workforce-related concerns and ensuring trustworthy AI. A quantitative analysis highlights particular challenges and topics that are important for practitioners but still need to be sufficiently investigated by academics. The paper briefly discusses existing solutions to these challenges and proposes avenues for future research. We hope that this survey serves as a resource for practitioners evaluating the cost-benefit implications of AI in CPS and for researchers aiming to address these urgent challenges.
翻訳日:2024-05-30 21:43:38 公開日:2024-05-28
# テキスト対応グラフの可能性を解き明かす:大規模言語モデルによる自動関係分解

Unleashing the Potential of Text-attributed Graphs: Automatic Relation Decomposition via Large Language Models ( http://arxiv.org/abs/2405.18581v1 )

ライセンス: Link先を確認
Hyunjin Seo, Taewon Kim, June Yong Yang, Eunho Yang, (参考訳) テキスト分散グラフ(TAG)の最近の進歩は、言語モデルのテキストモデリング機能を利用することで、ノードの特徴の質を大幅に改善している。 この成功にもかかわらず、事前に定義されたグラフ構造を強化するためにテキスト属性を活用することは、ほとんど探索されていない。 これまでの文献では,従来のTAGのエッジは単一関係(例,ハイパーリンク)として扱われ,実際には混合意味論(例,「助言された」,「参加する」など)を包含していた。 この単純化は、高度なノード機能と統合された場合でも、下流タスクにおけるグラフニューラルネットワーク(GNN)の表現学習プロセスを妨げる。 対照的に、これらのエッジを異なる意味関係に分解することは、GNNの性能を大幅に向上させる。 それにもかかわらず、エッジを手動で識別し、対応する意味関係にラベル付けすることは労働集約的であり、しばしばドメインの専門知識を必要とする。 この目的のために,RoSE (Relation-oriented Semantic Edge-decomposition) を導入した。これは,Large Language Models (LLMs) の機能を利用して,生のテキスト属性を分析してグラフ構造を分解する新しいフレームワークである。 RoSEは,(1)LLMベースのジェネレータと識別器を用いて意味のある関係を識別し,(2)LLMベースの分解器を用いて接続ノードに関連するテキストコンテンツを解析することにより,各エッジを対応する関係に分類する。 大規模な実験により、我々のモデルに依存しないフレームワークは、さまざまなデータセットのノード分類性能を大幅に向上し、ウィスコンシンデータセットでは最大16%の改善が達成された。

Recent advancements in text-attributed graphs (TAGs) have significantly improved the quality of node features by using the textual modeling capabilities of language models. Despite this success, utilizing text attributes to enhance the predefined graph structure remains largely unexplored. Our extensive analysis reveals that conventional edges on TAGs, treated as a single relation (e.g., hyperlinks) in previous literature, actually encompass mixed semantics (e.g., "advised by" and "participates in"). This simplification hinders the representation learning process of Graph Neural Networks (GNNs) on downstream tasks, even when integrated with advanced node features. In contrast, we discover that decomposing these edges into distinct semantic relations significantly enhances the performance of GNNs. Despite this, manually identifying and labeling of edges to corresponding semantic relations is labor-intensive, often requiring domain expertise. To this end, we introduce RoSE (Relation-oriented Semantic Edge-decomposition), a novel framework that leverages the capability of Large Language Models (LLMs) to decompose the graph structure by analyzing raw text attributes - in a fully automated manner. RoSE operates in two stages: (1) identifying meaningful relations using an LLM-based generator and discriminator, and (2) categorizing each edge into corresponding relations by analyzing textual contents associated with connected nodes via an LLM-based decomposer. Extensive experiments demonstrate that our model-agnostic framework significantly enhances node classification performance across various datasets, with improvements of up to 16% on the Wisconsin dataset.
翻訳日:2024-05-30 21:43:38 公開日:2024-05-28
# 暗号化制御システムのための検証可能な計算方式

A Verifiable Computing Scheme for Encrypted Control Systems ( http://arxiv.org/abs/2405.18586v1 )

ライセンス: Link先を確認
Francesca Stabile, Walter Lucia, Amr Youssef, Giuseppe Franze, (参考訳) クラウドコンピューティング技術の普及は、高性能、リモートアクセシビリティ、プライバシを提供する、ネットワーク化された暗号化制御システムをデプロイするための道を開いた。 しかし、サードパーティのクラウドサービスプロバイダ上でコントロールアルゴリズムが実行される場合、コントロールロジックはクラウド上の悪意のあるエージェントによって変更される可能性がある。 これにより、雲から受信した制御信号の正当性を検証することが必須となる。 ゼロ知識証明手法のような従来の検証手法は、証明生成と検証の両方で計算的に要求されるが、証明器と検証器の間には数ラウンドの相互作用が必要であり、その結果、リアルタイム制御システムでは適用できない。 本稿では,確率論的カット・アンド・チョース手法に着想を得た,計算的に安価で検証可能な新しい計算ソリューションを提案する。 提案方式により, プラントのアクチュエータは, 制御方式の性能を損なうことなく, 暗号化クラウドベースのネットワーク制御による計算を検証できる。 遠隔操作型Khepera IV差動駆動ロボットを用いて,提案手法の有効性と実時間適用性を示す。

The proliferation of cloud computing technologies has paved the way for deploying networked encrypted control systems, offering high performance, remote accessibility and privacy. However, in scenarios where the control algorithms run on third-party cloud service providers, the control logic might be changed by a malicious agent on the cloud. Consequently, it is imperative to verify the correctness of the control signals received from the cloud. Traditional verification methods, like zero-knowledge proof techniques, are computationally demanding in both proof generation and verification, may require several rounds of interactions between the prover and verifier and, consequently, are inapplicable in realtime control system applications. In this paper, we present a novel computationally inexpensive verifiable computing solution inspired by the probabilistic cut-and-choose approach. The proposed scheme allows the plant's actuator to validate the computations accomplished by the encrypted cloud-based networked controller without compromising the control scheme's performance. We showcase the effectiveness and real-time applicability of the proposed verifiable computation scheme using a remotely controlled Khepera IV differential-drive robot.
翻訳日:2024-05-30 21:43:38 公開日:2024-05-28
# 幾何学的複雑度によるマルチクラス一般化境界

A Margin-based Multiclass Generalization Bound via Geometric Complexity ( http://arxiv.org/abs/2405.18590v1 )

ライセンス: Link先を確認
Michael Munn, Benoit Dherin, Javier Gonzalvo, (参考訳) ディープニューラルネットワークの一般化能力をよりよく理解するために、彼らの成功に関する理論的理解を解き放ち、さらなる改善の道筋を提供する手段として、かなりの努力がなされている。 本稿では,最近の複雑性尺度である幾何複雑性に依存するニューラルネットワークのマージンベース多クラス一般化境界について検討する。 我々は、ネットワークの余分な正規化幾何学的複雑さとスケールし、幅広いデータ分布とモデルクラスを持つ一般化誤差の新たな上限を導出する。 CIFAR-10およびCIFAR-100データセット上でSGDでトレーニングしたResNet-18モデルに対して,本手法の一般化境界を実験的に検討した。

There has been considerable effort to better understand the generalization capabilities of deep neural networks both as a means to unlock a theoretical understanding of their success as well as providing directions for further improvements. In this paper, we investigate margin-based multiclass generalization bounds for neural networks which rely on a recent complexity measure, the geometric complexity, developed for neural networks. We derive a new upper bound on the generalization error which scales with the margin-normalized geometric complexity of the network and which holds for a broad family of data distributions and model classes. Our generalization bound is empirically investigated for a ResNet-18 model trained with SGD on the CIFAR-10 and CIFAR-100 datasets with both original and random labels.
翻訳日:2024-05-30 21:43:38 公開日:2024-05-28
# 自爆テロ検知器の配置に関するメタヒューリスティックなアプローチ

Metaheuristic approaches to the placement of suicide bomber detectors ( http://arxiv.org/abs/2405.18593v1 )

ライセンス: Link先を確認
Carlos Cotta, José E. Gallardo, (参考訳) 自爆テロはテロリズムの悪名高い形態であり、世界的テロ戦争の時代にますます広まりつつある。 本研究は,本種の標的攻撃事例と,脅威領域に分布する検知器の使用を保護対策として検討する。 このような検知器は信頼性が低いため、攻撃を検知する確率を最大化するために戦略的に配置する必要があるため、予想される死傷者数を最小化する。 この目的のために、局所探索と集団探索に基づく異なるメタヒューリスティックなアプローチが検討され、文献からの強力な欲求的ヒューリスティックに対してベンチマークされる。 非常に多様な特性を有する合成事例について広範な実証評価を行った。 ほとんどのメタヒューリスティックスはグリーディアルゴリズムよりも優れており、ヒルクライマーは残りのアプローチよりも優れていることが示されている。 このヒルクライマーはその後、どの問題特徴が欲求的アプローチより上かを決定するための感度分析を受け、最終的に現実的なシナリオの後に構築された多くの問題インスタンスにデプロイされ、ヒューリスティックの優れたパフォーマンスを裏付ける。

Suicide bombing is an infamous form of terrorism that is becoming increasingly prevalent in the current era of global terror warfare. We consider the case of targeted attacks of this kind, and the use of detectors distributed over the area under threat as a protective countermeasure. Such detectors are non-fully reliable, and must be strategically placed in order to maximize the chances of detecting the attack, hence minimizing the expected number of casualties. To this end, different metaheuristic approaches based on local search and on population-based search are considered and benchmarked against a powerful greedy heuristic from the literature. We conduct an extensive empirical evaluation on synthetic instances featuring very diverse properties. Most metaheuristics outperform the greedy algorithm, and a hill-climber is shown to be superior to remaining approaches. This hill-climber is subsequently subject to a sensitivity analysis to determine which problem features make it stand above the greedy approach, and is finally deployed on a number of problem instances built after realistic scenarios, corroborating the good performance of the heuristic.
翻訳日:2024-05-30 21:43:38 公開日:2024-05-28
# 説明可能なXGBoostに基づく偽情報・偽情報検出手法

An Explainable XGBoost-based Approach on Assessing Detection of Deception and Disinformation ( http://arxiv.org/abs/2405.18596v1 )

ライセンス: Link先を確認
Alex V Mbaziira, Maha F Sabir, (参考訳) 脅威のある俳優は、地政学的およびグローバルな公開イベントを引き続き利用し続け、インターネット上で偽情報を広める攻撃的なキャンペーンを展開している。 本稿では,虚偽とサイバー犯罪に関連する心理言語学および計算言語学のプロセスを用いた偽情報検出の先行研究を拡張し,機械学習モデルの予測結果に影響を及ぼす特徴について理解を深める。 本稿では,eXtreme Gradient Boosting 機械学習アルゴリズムを用いて,偽情報・詐欺・偽陽性・否定的オンラインレビュー・詐欺を訓練したハイブリッドモデルにおいて,偽情報の偽造パターンを決定することを試みる。 4つのハイブリッドモデルは、偽情報と詐欺(DIS+EN)、偽情報と詐欺(DIS+FB)、偽情報と好ましくない偽レビュー(DIS+POS)、偽情報と好ましくない偽レビュー(DIS+NEG)に基づいて訓練されたモデルを生成する。 4種類のハイブリッドモデルは,75%から85%の予測精度で偽情報や偽情報を検出した。 モデルの結果をSHAPで評価し,特徴の影響を判定した。

Threat actors continue to exploit geopolitical and global public events launch aggressive campaigns propagating disinformation over the Internet. In this paper we extend our prior research in detecting disinformation using psycholinguistic and computational linguistic processes linked to deception and cybercrime to gain an understanding of the features impact the predictive outcome of machine learning models. In this paper we attempt to determine patterns of deception in disinformation in hybrid models trained on disinformation and scams, fake positive and negative online reviews, or fraud using the eXtreme Gradient Boosting machine learning algorithm. Four hybrid models are generated which are models trained on disinformation and fraud (DIS+EN), disinformation and scams (DIS+FB), disinformation and favorable fake reviews (DIS+POS) and disinformation and unfavorable fake reviews (DIS+NEG). The four hybrid models detected deception and disinformation with predictive accuracies ranging from 75% to 85%. The outcome of the models was evaluated with SHAP to determine the impact of the features.
翻訳日:2024-05-30 21:43:38 公開日:2024-05-28
# コンフォーマル予測から信頼領域へ

From Conformal Predictions to Confidence Regions ( http://arxiv.org/abs/2405.18601v1 )

ライセンス: Link先を確認
Charles Guille-Escuret, Eugene Ndiaye, (参考訳) コンフォーマル予測手法は予測モデルにおける不確実性の定量化を著しく進めてきた。 しかし、モデルパラメーターに対する信頼領域の構築は、しばしばデータ分布に関する厳密な仮定を必要とする、あるいは単に漸近的な保証を提供する、顕著な課題を示す。 本稿では,モデルパラメータに対する信頼領域を確立するために,モデル出力に共形予測間隔を組み合わせた新しいアプローチCCRを提案する。 本稿では,雑音に対する最小限の仮定の下でのカバレッジ保証について述べる。 本手法は, 完全あるいはクロスコンフォーマルなアプローチを含む, 分割共形予測とブラックボックス手法の両方に適用可能である。 線形モデルの特定の場合において、導出された信頼領域は混合整数線形プログラム(MILP)の実現可能な集合として現れ、個々のパラメータに対する信頼区間の導出を容易にし、堅牢な最適化を可能にする。 我々はCCRと最近のヘテロスケダス音や非ガウス音といった難易度設定の進歩を実証的に比較した。

Conformal prediction methodologies have significantly advanced the quantification of uncertainties in predictive models. Yet, the construction of confidence regions for model parameters presents a notable challenge, often necessitating stringent assumptions regarding data distribution or merely providing asymptotic guarantees. We introduce a novel approach termed CCR, which employs a combination of conformal prediction intervals for the model outputs to establish confidence regions for model parameters. We present coverage guarantees under minimal assumptions on noise and that is valid in finite sample regime. Our approach is applicable to both split conformal predictions and black-box methodologies including full or cross-conformal approaches. In the specific case of linear models, the derived confidence region manifests as the feasible set of a Mixed-Integer Linear Program (MILP), facilitating the deduction of confidence intervals for individual parameters and enabling robust optimization. We empirically compare CCR to recent advancements in challenging settings such as with heteroskedastic and non-Gaussian noise.
翻訳日:2024-05-30 21:43:38 公開日:2024-05-28
# SST-GCN:道路交通事故リスク予測のためのシーケンスベース時空間グラフ畳み込みネットワーク

SST-GCN: The Sequential based Spatio-Temporal Graph Convolutional networks for Minute-level and Road-level Traffic Accident Risk Predictio ( http://arxiv.org/abs/2405.18602v1 )

ライセンス: Link先を確認
Tae-wook Kim, Han-jin Lee, Hyeon-Jin Jung, Ji-Woong Yang, Ellen J. Hong, (参考訳) 交通事故は世界中で大きな社会問題として認識されており、毎年多くの負傷者や大きなコストがかかる。 その結果,交通事故の予測・防止方法が長年研究されてきた。 人工知能の分野での進歩に伴い、さまざまな研究が交通事故予測に機械学習とディープラーニング技術を適用している。 現代の交通状況は1分ごとに急速に変化し、道路によって大きく変化している。 言い換えれば、交通事故のリスクは各道路の様々なパターンで分単位で変化する。 そのため,ミニ・レベルとロード・レベルにおける交通事故のリスクを予測することが望ましい。 しかし、道路は隣接する道路と密接かつ複雑な関係にあるため、ミニット・レベルとロード・レベルでの交通事故の予測に関する研究は困難である。 したがって,交通事故予測のための道路の空間的・時間的特性を反映できるモデルの構築が不可欠である。 その結果,グラフ畳み込みネットワークを用いて道路の空間的特性を捉える手法や,交通事故のリスクを予測するための時間的特性を再現する手法が近年試みられている。 本稿では, 韓国の首都ソウルに構築された道路データセットを用いて, GCN と LSTM を組み合わせたシーケンスベース時空間グラフ畳み込みネットワーク(SST-GCN)を提案する。 実験により、SST-GCNは他の最先端モデルよりも小さなレベル予測の方が優れていることが示された。

Traffic accidents are recognized as a major social issue worldwide, causing numerous injuries and significant costs annually. Consequently, methods for predicting and preventing traffic accidents have been researched for many years. With advancements in the field of artificial intelligence, various studies have applied Machine Learning and Deep Learning techniques to traffic accident prediction. Modern traffic conditions change rapidly by the minute, and these changes vary significantly across different roads. In other words, the risk of traffic accidents changes minute by minute in various patterns for each road. Therefore, it is desirable to predict traffic accident risk at the Minute-Level and Road-Level. However, because roads have close and complex relationships with adjacent roads, research on predicting traffic accidents at the Minute-Level and Road-Level is challenging. Thus, it is essential to build a model that can reflect the spatial and temporal characteristics of roads for traffic accident prediction. Consequently, recent attempts have been made to use Graph Convolutional Networks to capture the spatial characteristics of roads and Recurrent Neural Networks to capture their temporal characteristics for predicting traffic accident risk. This paper proposes the Sequential based Spatio-Temporal Graph Convolutional Networks (SST-GCN), which combines GCN and LSTM, to predict traffic accidents at the Minute-Level and Road-Level using a road dataset constructed in Seoul, the capital of South Korea. Experiments have demonstrated that SST-GCN outperforms other state-of-the-art models in Minute-Level predictions.
翻訳日:2024-05-30 21:43:38 公開日:2024-05-28
# BioBERTを用いた深層学習と融合したChemProt-DrugProtによるバイオメディカルリレーション抽出

BioBERT-based Deep Learning and Merged ChemProt-DrugProt for Enhanced Biomedical Relation Extraction ( http://arxiv.org/abs/2405.18605v1 )

ライセンス: Link先を確認
Bridget T. McInnes, Jiawei Tang, Darshini Mahendran, Mai H. Nguyen, (参考訳) 本稿では,生物医学的テキストから関係抽出を高度化するための方法論について述べる。 BioBERTモデルと多層完全接続ネットワークアーキテクチャを活用することで,新たなマージ戦略を用いて,ChemProtデータセットとPaldrProtデータセットを統合する。 大規模な実験を通じて、特にデータセット間で共有されるCPRグループにおいて、大幅な性能向上を示す。 この結果は,サンプル数の増加とモデル精度の向上において,データセットのマージの重要性を浮き彫りにした。 さらに, バイオメディカル研究と臨床実習における自動情報抽出の可能性を強調した。

This paper presents a methodology for enhancing relation extraction from biomedical texts, focusing specifically on chemical-gene interactions. Leveraging the BioBERT model and a multi-layer fully connected network architecture, our approach integrates the ChemProt and DrugProt datasets using a novel merging strategy. Through extensive experimentation, we demonstrate significant performance improvements, particularly in CPR groups shared between the datasets. The findings underscore the importance of dataset merging in augmenting sample counts and improving model accuracy. Moreover, the study highlights the potential of automated information extraction in biomedical research and clinical practice.
翻訳日:2024-05-30 21:43:38 公開日:2024-05-28
# 3次元多視点多目的追跡のためのトラック初期化と再同定

Track Initialization and Re-Identification for~3D Multi-View Multi-Object Tracking ( http://arxiv.org/abs/2405.18606v1 )

ライセンス: Link先を確認
Linh Van Ma, Tran Thien Dat Nguyen, Ba-Ngu Vo, Hyunsung Jang, Moongu Jeon, (参考訳) モノクロカメラからの2次元検出のみを用いた3次元多対象追跡(MOT)ソリューションを提案する。 さらに, カメラのリコンフィグレーションを行う場合, カメラのリコンフィグレーションは必要とされないが, カメラのリコンフィグレーションは, カメラのリコンフィグレーションのみを更新する必要がある。 提案手法は,トラック開始・終了・再識別・オクルージョンハンドリング・データアソシエーションを単一ベイズフィルタ再帰に組み込んだベイズ多対象定式化に基づく。 しかし、これらの機能を利用する正確なフィルタは、(多目的)フィルタリング密度が指数関数的に増加し、既存の近似はこれらの機能の一部を高速に切り離すため、数値的に難解である。 そこで本研究では,オブジェクトの特徴とキネマティクスを計測モデルに組み込むことにより,オンラインMOTに適したより効率的な近似法を開発した。 具体的には、複数のカメラから2次元検出と抽出した特徴を利用して、トラック開始・終了・再識別機能を実現するために、多目的フィルタリング密度をよりよく近似する。 さらに,カメラ面上の3次元物体の2次元投影に基づく抽出可能な幾何オクルージョンモデルを導入することにより,フィルタのオクルージョンハンドリング機能を実現する。 課題のあるデータセットに対する提案ソリューションの評価は、既存のマルチビューMOTソリューションと比較して、カメラ構成がオンザフライで変化する場合の大幅な改善と堅牢性を示している。 ソースコードはhttps://github.com/linh-gist/mv-glmb-ab.comで公開されている。

We propose a 3D multi-object tracking (MOT) solution using only 2D detections from monocular cameras, which automatically initiates/terminates tracks as well as resolves track appearance-reappearance and occlusions. Moreover, this approach does not require detector retraining when cameras are reconfigured but only the camera matrices of reconfigured cameras need to be updated. Our approach is based on a Bayesian multi-object formulation that integrates track initiation/termination, re-identification, occlusion handling, and data association into a single Bayes filtering recursion. However, the exact filter that utilizes all these functionalities is numerically intractable due to the exponentially growing number of terms in the (multi-object) filtering density, while existing approximations trade-off some of these functionalities for speed. To this end, we develop a more efficient approximation suitable for online MOT by incorporating object features and kinematics into the measurement model, which improves data association and subsequently reduces the number of terms. Specifically, we exploit the 2D detections and extracted features from multiple cameras to provide a better approximation of the multi-object filtering density to realize the track initiation/termination and re-identification functionalities. Further, incorporating a tractable geometric occlusion model based on 2D projections of 3D objects on the camera planes realizes the occlusion handling functionality of the filter. Evaluation of the proposed solution on challenging datasets demonstrates significant improvements and robustness when camera configurations change on-the-fly, compared to existing multi-view MOT solutions. The source code is publicly available at https://github.com/linh-gist/mv-glmb-ab.
翻訳日:2024-05-30 21:43:38 公開日:2024-05-28
# DTR-Bench: 強化学習に基づく動的処理レジームのためのシリコ環境とベンチマークプラットフォーム

DTR-Bench: An in silico Environment and Benchmark Platform for Reinforcement Learning Based Dynamic Treatment Regime ( http://arxiv.org/abs/2405.18610v1 )

ライセンス: Link先を確認
Zhiyao Luo, Mingcheng Zhu, Fenglin Liu, Jiali Li, Yangchen Pan, Jiandong Zhou, Tingting Zhu, (参考訳) 強化学習(Reinforcement Learning, RL)は、個人化医療における動的治療体制(DTR)を最適化する可能性、特に薬物服用処方薬や医薬品の推奨に対して、認知度を高めている。 しかし、様々な医療シナリオをシミュレートするための統一されたフレームワークが存在しないことや、これらのコンテキストにおけるRLアルゴリズムの有効性をベンチマークするための包括的な分析など、大きな課題が続いている。 このギャップに対処するために,がん化学療法,放射線療法,糖尿病のグルコース管理,敗血症治療など,一般的なDTR応用に適した4つのシミュレーション環境からなるベンチマークプラットフォームである「textit{DTR-Bench}」を紹介した。 薬物動態・薬物動態 (PK/PD) の変動, ノイズ, 欠落データなど, 現実の課題の中で, それらの性能を強調し, 様々な現状のRLアルゴリズムの評価を行った。 実験の結果,RLアルゴリズムでは雑音や患者変動の有無によって性能劣化の程度が異なっており,いくつかのアルゴリズムは収束しない。 さらに、時間的観察表現を用いることで、DTR設定の性能が常に向上するわけではないことが観察された。 これらの複雑さを効果的に管理し、患者固有の医療を増強できるロバストで適応的なRLアルゴリズムを開発する必要性が示唆された。 ベンチマークとコードはhttps://github.com/GilesLuo/DTR-Bench.comで公開しています。

Reinforcement learning (RL) has garnered increasing recognition for its potential to optimise dynamic treatment regimes (DTRs) in personalised medicine, particularly for drug dosage prescriptions and medication recommendations. However, a significant challenge persists: the absence of a unified framework for simulating diverse healthcare scenarios and a comprehensive analysis to benchmark the effectiveness of RL algorithms within these contexts. To address this gap, we introduce \textit{DTR-Bench}, a benchmarking platform comprising four distinct simulation environments tailored to common DTR applications, including cancer chemotherapy, radiotherapy, glucose management in diabetes, and sepsis treatment. We evaluate various state-of-the-art RL algorithms across these settings, particularly highlighting their performance amidst real-world challenges such as pharmacokinetic/pharmacodynamic (PK/PD) variability, noise, and missing data. Our experiments reveal varying degrees of performance degradation among RL algorithms in the presence of noise and patient variability, with some algorithms failing to converge. Additionally, we observe that using temporal observation representations does not consistently lead to improved performance in DTR settings. Our findings underscore the necessity of developing robust, adaptive RL algorithms capable of effectively managing these complexities to enhance patient-specific healthcare. We have open-sourced our benchmark and code at https://github.com/GilesLuo/DTR-Bench.
翻訳日:2024-05-30 21:33:21 公開日:2024-05-28
# GLOCON Database: 設計決定とユーザマニュアル(v1.0)

GLOCON Database: Design Decisions and User Manual (v1.0) ( http://arxiv.org/abs/2405.18613v1 )

ライセンス: Link先を確認
Ali Hürriyetoğlu, Osman Mutlu, Fırat Duruşan, Erdem Yörük, (参考訳) GLOCONは、複数の言語で各国のニュースソースから自動的に抽出される論争的な出来事のデータベースである。 全国のニュースソースが利用され、完全なニュースアーカイブが処理され、各ソースのイベントリストが作成される。 自動化は、完全なニュースアーカイブ(Y\"or\"uk et al 2022)からランダムにサンプリングされた金の標準コーパスを使用して達成され、Duru\c{s}an et al (2022)で提供されるイベント定義に基づいて、少なくとも2つのドメイン専門家によって注釈付けされる。

GLOCON is a database of contentious events automatically extracted from national news sources from various countries in multiple languages. National news sources are utilized, and complete news archives are processed to create an event list for each source. Automation is achieved using a gold standard corpus sampled randomly from complete news archives (Y\"or\"uk et al. 2022) and all annotated by at least two domain experts based on the event definition provided in Duru\c{s}an et al. (2022).
翻訳日:2024-05-30 21:33:21 公開日:2024-05-28
# Augmented Physics:静的図からインタラクティブな物理シミュレーションを作成する機械学習ツール

Augmented Physics: A Machine Learning-Powered Tool for Creating Interactive Physics Simulations from Static Diagrams ( http://arxiv.org/abs/2405.18614v1 )

ライセンス: Link先を確認
Aditya Gunturu, Yi Wen, Jarin Thundathil, Nandi Zhang, Rubaiat Habib Kazi, Ryo Suzuki, (参考訳) 静的な教科書図からインタラクティブな物理シミュレーションを作成するための機械学習ツールであるAugmented Physicsを紹介した。 Segment Anything や OpenCV などのコンピュータビジョン技術を活用することで,ユーザが物理教科書から図を半自動抽出し,抽出したコンテンツに基づいてインタラクティブなシミュレーションを生成することができる。 これらのインタラクティブなダイアグラムは、スキャンされた教科書ページにシームレスに統合され、重力、光学、回路、キネマティックスなど、様々な物理概念の対話的でパーソナライズされた学習体験を容易にする。 7人の物理インストラクターによる説明研究に基づいて、我々は4つの重要な強化手法を探求する。 1【拡張実験】 2)アニメーション図。 3)双方向マニピュレータ,及び 4)パラメータ可視化。 技術評価,ユーザビリティスタディ(N=12),エキスパートインタビュー(N=12。 その結果,本システムは,物理教育において,よりエンゲージメントとパーソナライズされた学習体験を促進することが示唆された。

We introduce Augmented Physics, a machine learning-powered tool designed for creating interactive physics simulations from static textbook diagrams. Leveraging computer vision techniques, such as Segment Anything and OpenCV, our web-based system enables users to semi-automatically extract diagrams from physics textbooks and then generate interactive simulations based on the extracted content. These interactive diagrams are seamlessly integrated into scanned textbook pages, facilitating interactive and personalized learning experiences across various physics concepts, including gravity, optics, circuits, and kinematics. Drawing on an elicitation study with seven physics instructors, we explore four key augmentation techniques: 1) augmented experiments, 2) animated diagrams, 3) bi-directional manipulatives, and 4) parameter visualization. We evaluate our system through technical evaluation, a usability study (N=12), and expert interviews (N=12). The study findings suggest that our system can facilitate more engaging and personalized learning experiences in physics education.
翻訳日:2024-05-30 21:33:21 公開日:2024-05-28
# ウェーブレットを用いた視覚変換器用画像トケナイザ

Wavelet-Based Image Tokenizer for Vision Transformers ( http://arxiv.org/abs/2405.18616v1 )

ライセンス: Link先を確認
Zhenhai Zhu, Radu Soricut, (参考訳) 非重複パッチワイドコンボリューションは、すべての最先端ビジョントランスフォーマー(ViT)モデルのデフォルトの画像トークンである。 多くのViT変異体が効率と精度を改善するために提案されているが、画像トークン化装置自体の改善に関する研究はほとんど報告されていない。 本稿ではウェーブレット変換に基づく新しい画像トークン化手法を提案する。 新たなトークン機構を備えたViTモデルは,ImageNet検証セットのトレーニングスループットの向上とトップ1精度の向上を実現する。 本稿では,ViTモデルアーキテクチャの変更を伴わずに,トークン化器がトレーニングスループットを向上する理由に関する理論的解析を行う。 分析の結果,新しいトークンーザは高解像度画像を効果的に処理でき,対向攻撃に対して自然に耐性があることが示唆された。 さらに、画像理解のための一様でないグリッド上の画像トークンなど、ViTベースのモデル設計のための重要な研究方向について、新たな視点を提供する。

Non-overlapping patch-wise convolution is the default image tokenizer for all state-of-the-art vision Transformer (ViT) models. Even though many ViT variants have been proposed to improve its efficiency and accuracy, little research on improving the image tokenizer itself has been reported in the literature. In this paper, we propose a new image tokenizer based on wavelet transformation. We show that ViT models with the new tokenizer achieve both higher training throughput and better top-1 precision for the ImageNet validation set. We present a theoretical analysis on why the proposed tokenizer improves the training throughput without any change to ViT model architecture. Our analysis suggests that the new tokenizer can effectively handle high-resolution images and is naturally resistant to adversarial attack. Furthermore, the proposed image tokenizer offers a fresh perspective on important new research directions for ViT-based model design, such as image tokens on a non-uniform grid for image understanding.
翻訳日:2024-05-30 21:33:21 公開日:2024-05-28
# RealitySummary:大規模言語モデルを用いたオンデマンド混合現実感文書強調

RealitySummary: On-Demand Mixed Reality Document Enhancement using Large Language Models ( http://arxiv.org/abs/2405.18620v1 )

ライセンス: Link先を確認
Aditya Gunturu, Shivesh Jadon, Nandi Zhang, Jarin Thundathil, Wesley Willett, Ryo Suzuki, (参考訳) 本稿では、オンデマンドテキスト抽出、要約、拡張を用いて、印刷物やデジタル文書を拡張可能な複合現実読影アシスタントであるRealitySummaryを紹介する。 拡張読影ツールは、オーバーレイされたデジタルコンテンツによる物理的な読書体験を強化することを約束するが、以前のシステムは、通常、その一般化可能性と実世界のユースケースを制限する、事前処理された文書を必要とする。 本稿では,大規模言語モデルを活用したオンデマンド文書拡張について検討する。 そこで我々はまず,文書拡張の5つのカテゴリ(要約,拡張,ナビゲーション,比較,抽出)を特定した探索的設計研究を行った。 そこで我々は,Google Cloud OCRとGPT-4を使ってテキストを自動的に抽出して要約し,Microsoft Hololens 2とApple Vision Proを使って文書に関する情報を埋め込む概念実証システムを開発した。 6つの特定のドキュメント拡張のリアルタイム例を示します。 1)要約。 2)比較表 3) タイムライン。 4)キーワードリスト。 5)要約ハイライト、及び 6) 情報カード。 ユーザビリティスタディ (N=12) とイン・ザ・ワイルドスタディ (N=11) の結果は、オンデマンドMR文書の強化と今後の研究機会の可能性を浮き彫りにしている。

We introduce RealitySummary, a mixed reality reading assistant that can enhance any printed or digital document using on-demand text extraction, summarization, and augmentation. While augmented reading tools promise to enhance physical reading experiences with overlaid digital content, prior systems have typically required pre-processed documents, which limits their generalizability and real-world use cases. In this paper, we explore on-demand document augmentation by leveraging large language models. To understand generalizable techniques for diverse documents, we first conducted an exploratory design study which identified five categories of document enhancements (summarization, augmentation, navigation, comparison, and extraction). Based on this, we developed a proof-of-concept system that can automatically extract and summarize text using Google Cloud OCR and GPT-4, then embed information around documents using a Microsoft Hololens 2 and Apple Vision Pro. We demonstrate real-time examples of six specific document augmentations: 1) summaries, 2) comparison tables, 3) timelines, 4) keyword lists, 5) summary highlighting, and 6) information cards. Results from a usability study (N=12) and in-the-wild study (N=11) highlight the potential benefits of on-demand MR document enhancement and opportunities for future research.
翻訳日:2024-05-30 21:33:21 公開日:2024-05-28
# ネットワーク干渉を用いたマルチアーマッドバンド

Multi-Armed Bandits with Network Interference ( http://arxiv.org/abs/2405.18621v1 )

ライセンス: Link先を確認
Abhineet Agarwal, Anish Agarwal, Lorenzo Masoero, Justin Whitehouse, (参考訳) 干渉によるオンライン実験は、電子商取引や医学における適応的臨床試験のような近代的な応用において共通の課題である。 例えば、オンラインマーケットプレースでは、商品の収益は競合商品に適用される割引に依存する。 干渉による統計的推測はオフライン環境で広く研究されているが、後悔を最小限に抑えるために適応的に治療を割り当てる方法についてはあまり知られていない。 我々は,学習者(eコマースプラットフォーム)が,可能な$\mathcal{A}$アクション(割引)の1つを,後悔(収益の最大化)を最小限に抑えるために,T$ラウンド以上の$N$ユニット(グッド)に順次割り当てる,マルチアームバンディット(MAB)問題を研究することで,このギャップに対処する。 従来のMAB問題とは異なり、各ユニットの報酬は他のユニットに割り当てられた処理に依存する。 $\mathcal{A}$アクションと$N$ユニットでは、アクション空間が$\mathcal{A}^N$として成長するので、後悔を最小化することは組合せ的に困難である。 この問題を克服するために、各ユニットの報酬は、近隣ユニットの$s$に割り当てられた処理によってのみ影響を受ける、スパースネットワーク干渉モデルについて検討する。 離散フーリエ解析のツールを用いて、単位固有報酬 $r_n: [\mathcal{A}]^N \rightarrow \mathbb{R} $ の疎線型表現を開発し、後悔を最小限に抑える単純な線形回帰アルゴリズムを提案する。 重要なことは、学習者がすべてのユニットの干渉地区を観察し、いつその領域が未知になるかの両方において、我々のアルゴリズムは確実に低い後悔を達成することである。 これは、既知のネットワーク上の干渉の強さに厳密な条件を課すこのトピックに関する他の研究を著しく一般化し、また、後悔を著しく弱い最適な行動と比較する。 数値シミュレーションにより理論的知見を裏付ける。

Online experimentation with interference is a common challenge in modern applications such as e-commerce and adaptive clinical trials in medicine. For example, in online marketplaces, the revenue of a good depends on discounts applied to competing goods. Statistical inference with interference is widely studied in the offline setting, but far less is known about how to adaptively assign treatments to minimize regret. We address this gap by studying a multi-armed bandit (MAB) problem where a learner (e-commerce platform) sequentially assigns one of possible $\mathcal{A}$ actions (discounts) to $N$ units (goods) over $T$ rounds to minimize regret (maximize revenue). Unlike traditional MAB problems, the reward of each unit depends on the treatments assigned to other units, i.e., there is interference across the underlying network of units. With $\mathcal{A}$ actions and $N$ units, minimizing regret is combinatorially difficult since the action space grows as $\mathcal{A}^N$. To overcome this issue, we study a sparse network interference model, where the reward of a unit is only affected by the treatments assigned to $s$ neighboring units. We use tools from discrete Fourier analysis to develop a sparse linear representation of the unit-specific reward $r_n: [\mathcal{A}]^N \rightarrow \mathbb{R} $, and propose simple, linear regression-based algorithms to minimize regret. Importantly, our algorithms achieve provably low regret both when the learner observes the interference neighborhood for all units and when it is unknown. This significantly generalizes other works on this topic which impose strict conditions on the strength of interference on a known network, and also compare regret to a markedly weaker optimal action. Empirically, we corroborate our theoretical findings via numerical simulations.
翻訳日:2024-05-30 21:33:21 公開日:2024-05-28
# フォトニック量子コンピューティングを用いたデータセットのビクラスタリング

Biclustering a dataset using photonic quantum computing ( http://arxiv.org/abs/2405.18622v1 )

ライセンス: Link先を確認
Ajinkya Borle, Ameya Bhave, (参考訳) ビクラスタリングは、特定の基準に従ってデータセットの行と列をまとめようとする機械学習とデータマイニングにおける問題である。 本研究では、ボソンやガウスボソンサンプリング(GBS)のような量子コンピューティングモデルがこの問題にもたらす自然な関係を強調した。 まず, ボソンサンプリングを用いて, 行列の永久性に基づく二クラスターを同定する。 次に、ガウスボソンサンプリングを用いたデータセット内のクラスタを見つけるヒューリスティックを提案する。 一 データセットを二部グラフに変換して (i) GBS を実行して、より大きい二部グラフ内の最も密度の高い部分グラフを見つける。 以上より提案したヒューリスティックスをシミュレーションした結果,今後の探査に期待できる結果が得られた。

Biclustering is a problem in machine learning and data mining that seeks to group together rows and columns of a dataset according to certain criteria. In this work, we highlight the natural relation that quantum computing models like boson and Gaussian boson sampling (GBS) have to this problem. We first explore the use of boson sampling to identify biclusters based on matrix permanents. We then propose a heuristic that finds clusters in a dataset using Gaussian boson sampling by (i) converting the dataset into a bipartite graph and then (ii) running GBS to find the densest sub-graph(s) within the larger bipartite graph. Our simulations for the above proposed heuristics show promising results for future exploration in this area.
翻訳日:2024-05-30 21:33:21 公開日:2024-05-28
# CNNとLSTMベースの侵入検知システムによるIoTセキュリティの強化

Enhancing IoT Security with CNN and LSTM-Based Intrusion Detection Systems ( http://arxiv.org/abs/2405.18624v1 )

ライセンス: Link先を確認
Afrah Gueriani, Hamza Kheddar, Ahmed Cherif Mazari, (参考訳) モノのインターネット(IoT)デバイスをサイバー攻撃から守ることは、固有のセキュリティ脆弱性のために必須である。 これらの脆弱性には、個人と組織の両方に大きなダメージを与える高度な攻撃が含まれます。 侵入検知システム(IDS)のような堅牢なセキュリティ対策を採用することは、これらの問題を解決し、IoTシステムをそのような攻撃から保護するために不可欠である。 この文脈で提案するIDSモデルは,畳み込みニューラルネットワーク(CNN)と長短期記憶(LSTM)ディープラーニング(DL)モデルを組み合わせて構成する。 この融合により、パターン認識のためのCNNの空間的特徴抽出能力とLSTMの逐次記憶保持を活用し、複雑な時間的依存関係を識別し、精度と効率を向上させることにより、IoTトラフィックをバイナリカテゴリ、良性、悪質なアクティビティに分類し、検出しやすくする。 提案モデルの性能評価には,CICIDS2017データセットを使用した最終テストフェーズを通じてモデルのパフォーマンスを検証しながら,トレーニングと最終テストの両方に新たなCICIoT2023データセットを使用した。 提案モデルの精度は98.42%,最小損失は0.0275である。 偽陽性率(FPR)も同様に重要であり、F1スコア98.57%で9.17%に達した。 これらの結果から,CNN-LSTM IDSモデルの有効性が示唆された。

Protecting Internet of things (IoT) devices against cyber attacks is imperative owing to inherent security vulnerabilities. These vulnerabilities can include a spectrum of sophisticated attacks that pose significant damage to both individuals and organizations. Employing robust security measures like intrusion detection systems (IDSs) is essential to solve these problems and protect IoT systems from such attacks. In this context, our proposed IDS model consists on a combination of convolutional neural network (CNN) and long short-term memory (LSTM) deep learning (DL) models. This fusion facilitates the detection and classification of IoT traffic into binary categories, benign and malicious activities by leveraging the spatial feature extraction capabilities of CNN for pattern recognition and the sequential memory retention of LSTM for discerning complex temporal dependencies in achieving enhanced accuracy and efficiency. In assessing the performance of our proposed model, the authors employed the new CICIoT2023 dataset for both training and final testing, while further validating the model's performance through a conclusive testing phase utilizing the CICIDS2017 dataset. Our proposed model achieves an accuracy rate of 98.42%, accompanied by a minimal loss of 0.0275. False positive rate(FPR) is equally important, reaching 9.17% with an F1-score of 98.57%. These results demonstrate the effectiveness of our proposed CNN-LSTM IDS model in fortifying IoT environments against potential cyber threats.
翻訳日:2024-05-30 21:33:21 公開日:2024-05-28
# 適応的文脈をもつ因果文脈帯域

Causal Contextual Bandits with Adaptive Context ( http://arxiv.org/abs/2405.18626v1 )

ライセンス: Link先を確認
Rahul Madhavan, Aurghya Maiti, Gaurav Sinha, Siddharth Barman, (参考訳) 本研究では,学習者が選択した初期介入に基づいて,文脈が選択される因果的文脈包帯の変種について検討する。 各ラウンドの開始時に、学習者は、環境によって確率的文脈が明らかになるかに応じて、初期動作を選択する。 その後、学習者は最終動作を選択し、報酬を受け取る。 環境との相互作用にT$が与えられた場合、学習者の目的は、(最初のアクションと最後のアクションを選択する)ポリシーを最大限の報酬で学習することである。 本稿では、ある既知の因果グラフにおいて、全ての動作がノード上での介入に対応する特定の状況について検討する。 決定論的文脈設定から事前作業を拡張し、簡単な後悔の最小化保証を得る。 これは、インスタンス依存の因果パラメータ$\lambda$によって実現されます。 さらに、私たちの単純な後悔は、多くのインスタンスに対して本質的にきついことを証明します。 我々の研究の重要な特徴は、バンディット探索問題に対処するために凸最適化を使うことである。 また、理論的結果を検証し、プロジェクトのGitHubリポジトリでコードをリリースするための実験も行っています。

We study a variant of causal contextual bandits where the context is chosen based on an initial intervention chosen by the learner. At the beginning of each round, the learner selects an initial action, depending on which a stochastic context is revealed by the environment. Following this, the learner then selects a final action and receives a reward. Given $T$ rounds of interactions with the environment, the objective of the learner is to learn a policy (of selecting the initial and the final action) with maximum expected reward. In this paper we study the specific situation where every action corresponds to intervening on a node in some known causal graph. We extend prior work from the deterministic context setting to obtain simple regret minimization guarantees. This is achieved through an instance-dependent causal parameter, $\lambda$, which characterizes our upper bound. Furthermore, we prove that our simple regret is essentially tight for a large class of instances. A key feature of our work is that we use convex optimization to address the bandit exploration problem. We also conduct experiments to validate our theoretical results, and release our code at our project GitHub repository: https://github.com/adaptiveContextualCausalBandits/aCCB.
翻訳日:2024-05-30 21:33:21 公開日:2024-05-28
# PureGen: 生成モデルダイナミクスによる列車時間ポゾン防御のためのユニバーサルデータ浄化

PureGen: Universal Data Purification for Train-Time Poison Defense via Generative Model Dynamics ( http://arxiv.org/abs/2405.18627v1 )

ライセンス: Link先を確認
Sunay Bhat, Jeffrey Jiang, Omead Pooladzandi, Alexander Branch, Gregory Pottie, (参考訳) トレインタイムのデータ中毒攻撃は、トレーニング中に敵対的な例を導入することによって機械学習モデルを脅かす。 現在の防衛手法は、しばしば一般化性能を低下させ、攻撃固有のものであり、訓練のオーバーヘッドがかなり大きい。 そこで本稿では,エネルギーベースモデル (EBM) の反復的ランゲヴィン力学, 拡散確率モデル (DDPM) あるいはその両方を用いて実現された確率変換($\Psi(x)$)を用いた普遍的データ浄化手法を提案する。 これらのアプローチは、分類器の一般化に最小限の影響で有毒データを浄化する。 CIFAR-10, Tiny-ImageNet, CINIC-10におけるNarcissus, Bullseye Polytope, Gradient Matchingなど,攻撃や分類器固有の情報を必要とせずに, 特殊訓練されたEMMとDDPMは, 様々な攻撃(Narcisus, Bullseye Polytope, Gradient Matching)に対する最先端の防御を提供する。 提案手法は, 有毒あるいは分布に変化した生成モデルトレーニングデータであっても, 高い有効性を維持していることを示す。

Train-time data poisoning attacks threaten machine learning models by introducing adversarial examples during training, leading to misclassification. Current defense methods often reduce generalization performance, are attack-specific, and impose significant training overhead. To address this, we introduce a set of universal data purification methods using a stochastic transform, $\Psi(x)$, realized via iterative Langevin dynamics of Energy-Based Models (EBMs), Denoising Diffusion Probabilistic Models (DDPMs), or both. These approaches purify poisoned data with minimal impact on classifier generalization. Our specially trained EBMs and DDPMs provide state-of-the-art defense against various attacks (including Narcissus, Bullseye Polytope, Gradient Matching) on CIFAR-10, Tiny-ImageNet, and CINIC-10, without needing attack or classifier-specific information. We discuss performance trade-offs and show that our methods remain highly effective even with poisoned or distributionally shifted generative model training data.
翻訳日:2024-05-30 21:33:21 公開日:2024-05-28
# LLM推論のメモリ効率向上のためのハードウェア対応並列プロンプトデコーディング

Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference ( http://arxiv.org/abs/2405.18628v1 )

ライセンス: Link先を確認
Hao, Chen, Wayne Luk, Ka Fai Cedric Yiu, Rui Li, Konstantin Mishchenko, Stylianos I. Venieris, Hongxiang Fan, (参考訳) LLM(Large Language Models)の自動回帰デコーディングは、ハードウェア性能に大きなオーバーヘッドをもたらす。 近年,マルチトークン生成のための様々な投機的復号化手法が研究されているが,これらの取り組みはスループットなどの処理速度の向上に主眼を置いている。 重要なのは、メモリ消費やトレーニングコストなど、実際のデプロイメントに必要な他のメトリクスを無視することが多い。 これらの制限を克服するために、0.0002$%のトレーニング可能なパラメータを必要とする新しい並列プロンプトデコーディングを提案し、たった16時間で単一のA100-40GB GPUの効率的なトレーニングを可能にする。 人間の自然言語生成プロセスにインスパイアされた$PPD$は、複数のプロンプトトークンを使用して、将来の時間ステップで生成された出力を並列に近似する。 このアプローチは,マルチトークン生成に必要な条件依存情報を部分的に復元し,長距離予測において最大28%の受入率を得る。 さらに、この復号方式を適応的に最適化し、異なるGPU上での計算能力を完全に活用するハードウェア対応動的スパースツリー手法を提案する。 MobileLlama から Vicuna-13B までの LLM の幅広いベンチマーク実験を通じて、我々のアプローチは最大2.49$\times$ スピードアップを示し、最小限のランタイムメモリオーバーヘッドを0.0004$% で維持する。 さらに重要なことは、我々の並列プロンプトデコーディングは、既存の投機的デコーディングと相乗的統合のための直交最適化として機能し、最大で1.22\times$さらなるスピード改善を示すことである。 私たちのコードはhttps://github.com/hmarkc/parallel-prompt-decoding.comで利用可能です。

The auto-regressive decoding of Large Language Models (LLMs) results in significant overheads in their hardware performance. While recent research has investigated various speculative decoding techniques for multi-token generation, these efforts have primarily focused on improving processing speed such as throughput. Crucially, they often neglect other metrics essential for real-life deployments, such as memory consumption and training cost. To overcome these limitations, we propose a novel parallel prompt decoding that requires only $0.0002$% trainable parameters, enabling efficient training on a single A100-40GB GPU in just 16 hours. Inspired by the human natural language generation process, $PPD$ approximates outputs generated at future timesteps in parallel by using multiple prompt tokens. This approach partially recovers the missing conditional dependency information necessary for multi-token generation, resulting in up to a 28% higher acceptance rate for long-range predictions. Furthermore, we present a hardware-aware dynamic sparse tree technique that adaptively optimizes this decoding scheme to fully leverage the computational capacities on different GPUs. Through extensive experiments across LLMs ranging from MobileLlama to Vicuna-13B on a wide range of benchmarks, our approach demonstrates up to 2.49$\times$ speedup and maintains a minimal runtime memory overhead of just $0.0004$%. More importantly, our parallel prompt decoding can serve as an orthogonal optimization for synergistic integration with existing speculative decoding, showing up to $1.22\times$ further speed improvement. Our code is available at https://github.com/hmarkc/parallel-prompt-decoding.
翻訳日:2024-05-30 21:33:21 公開日:2024-05-28
# 学生評価におけるパートナーとしての大規模言語モデル

Large Language Models as Partners in Student Essay Evaluation ( http://arxiv.org/abs/2405.18632v1 )

ライセンス: Link先を確認
Toru Ishida, Tongxi Liu, Hailong Wang, William K. Cheung, (参考訳) ワークショップコースにおける総合的な評価の重要性が増すにつれ、教員の作業負荷を減らすための効率的で公平な評価方法への需要が高まっている。 本稿では,3つのシナリオにおいて,学生エッセイを用いたLarge Language Models (LLMs)による評価について述べる。 1) れんが等の指導を伴わない。 2) あらかじめ特定された潤滑油,及び 3)エッセイのペア比較による。 評価の質と安定性に関する懸念は残るものの, 分析結果の定量的分析により, LLMと教員評価の相互比較シナリオにおける相関が強いことが明らかとなった。 そこで,LLM評価コメントの質的分析を行い,以下の結果を得た。 1) LLM は, 教員の評価能力に適合することができる。 2 LLM評価のバリエーションは、混乱よりも多様性と解釈すべきであり、 3)人間とLLMによる評価は相違し,相互に補完することができる。 結論として, LLM は, 教員の助手としてだけではなく, 評価委員会のパートナーとして, 今後の研究の方向性を概説すべきであると考えられる。

As the importance of comprehensive evaluation in workshop courses increases, there is a growing demand for efficient and fair assessment methods that reduce the workload for faculty members. This paper presents an evaluation conducted with Large Language Models (LLMs) using actual student essays in three scenarios: 1) without providing guidance such as rubrics, 2) with pre-specified rubrics, and 3) through pairwise comparison of essays. Quantitative analysis of the results revealed a strong correlation between LLM and faculty member assessments in the pairwise comparison scenario with pre-specified rubrics, although concerns about the quality and stability of evaluations remained. Therefore, we conducted a qualitative analysis of LLM assessment comments, showing that: 1) LLMs can match the assessment capabilities of faculty members, 2) variations in LLM assessments should be interpreted as diversity rather than confusion, and 3) assessments by humans and LLMs can differ and complement each other. In conclusion, this paper suggests that LLMs should not be seen merely as assistants to faculty members but as partners in evaluation committees and outlines directions for further research.
翻訳日:2024-05-30 21:33:21 公開日:2024-05-28
# 文脈内アライメントによる自己補正の理論的理解

A Theoretical Understanding of Self-Correction through In-context Alignment ( http://arxiv.org/abs/2405.18634v1 )

ライセンス: Link先を確認
Yifei Wang, Yuyang Wu, Zeming Wei, Stefanie Jegelka, Yisen Wang, (参考訳) 人間の経験を模倣するだけでなく、最近の研究では、人間と同様に、大きな言語モデル(LLM)は自己補正によって純粋に能力を向上させることができる、すなわち、ある状況下での自己検査による以前の反応を補正できることが示されている。 しかし、そのような能力の出現についてはほとんど分かっていない。 本研究は、アライメントタスクに類似した簡易なセットアップに基づいて、理論的に文脈内学習の観点から自己補正を解析し、LCMが比較的正確な自己評価を報酬として与えている場合、その応答を文脈内方法で洗練することができることを示す。 特に、単純化された線形変圧器に関する従来の理論を超えて、我々の理論的構成は、自己補正のための現実的な変圧器の重要な設計であるソフトマックスアテンション、マルチヘッドアテンション、MLPブロックの役割を支えている。 合成データセットを用いて,これらの知見を広範囲に検証した。 これらの知見に触発されて、簡単な自己補正ステップが大きな違いをもたらすLDMジェイルブレイクに対する防御など、新しい自己補正の応用についても説明する。 これらの発見は、より良い基礎モデルを構築するための理解、活用、自己補正の強化に関するさらなる研究を促すだろうと考えている。

Going beyond mimicking limited human experiences, recent studies show initial evidence that, like humans, large language models (LLMs) are capable of improving their abilities purely by self-correction, i.e., correcting previous responses through self-examination, in certain circumstances. Nevertheless, little is known about how such capabilities arise. In this work, based on a simplified setup akin to an alignment task, we theoretically analyze self-correction from an in-context learning perspective, showing that when LLMs give relatively accurate self-examinations as rewards, they are capable of refining responses in an in-context way. Notably, going beyond previous theories on over-simplified linear transformers, our theoretical construction underpins the roles of several key designs of realistic transformers for self-correction: softmax attention, multi-head attention, and the MLP block. We validate these findings extensively on synthetic datasets. Inspired by these findings, we also illustrate novel applications of self-correction, such as defending against LLM jailbreaks, where a simple self-correction step does make a large difference. We believe that these findings will inspire further research on understanding, exploiting, and enhancing self-correction for building better foundation models.
翻訳日:2024-05-30 21:33:21 公開日:2024-05-28
# In-Distribution Labelはいつ,どのようにしてアウト・オブ・ディストリビューション検出に役立つのか?

When and How Does In-Distribution Label Help Out-of-Distribution Detection? ( http://arxiv.org/abs/2405.18635v1 )

ライセンス: Link先を確認
Xuefeng Du, Yiyou Sun, Yixuan Li, (参考訳) トレーニングディストリビューションから逸脱したデータポイントの検出は、信頼性の高い機械学習を保証する上で重要である。 大規模な研究は、古典的な異常検出技術から現代のアウト・オブ・ディストリビューション(OOD)検出アプローチまで、この課題に焦点をあてている。 OOD検出は一般的に、ラベル付きIDデータセットからの教師付き学習に依存するが、異常検出はIDデータ全体を単一のクラスとして扱い、IDラベルを無視することができる。 この基本的な区別は、まだ厳密に調査されていない重要な疑問を提起している。 本稿では,OOD検出におけるIDラベルの影響を理論的に説明するための形式的理解を提供することにより,このギャップを埋める。 我々は,OODデータからのIDデータの分離性について,グラフ理論を用いて厳密に解析する。 我々のアプローチの鍵は、グラフ上のスペクトル分解によるデータ表現のキャラクタリゼーションである。 これらの表現を活用することで、OOD検出性能とIDラベルの有無を比較した証明可能なエラー境界を確立し、OOD検出の強化を実現するための条件を明らかにする。 最後に、シミュレーションと実データの両方に経験的な結果を示し、理論的保証を検証し、洞察を補強する。 コードはhttps://github.com/deeplearning-wisc/id_label.comで公開されている。

Detecting data points deviating from the training distribution is pivotal for ensuring reliable machine learning. Extensive research has been dedicated to the challenge, spanning classical anomaly detection techniques to contemporary out-of-distribution (OOD) detection approaches. While OOD detection commonly relies on supervised learning from a labeled in-distribution (ID) dataset, anomaly detection may treat the entire ID data as a single class and disregard ID labels. This fundamental distinction raises a significant question that has yet to be rigorously explored: when and how does ID label help OOD detection? This paper bridges this gap by offering a formal understanding to theoretically delineate the impact of ID labels on OOD detection. We employ a graph-theoretic approach, rigorously analyzing the separability of ID data from OOD data in a closed-form manner. Key to our approach is the characterization of data representations through spectral decomposition on the graph. Leveraging these representations, we establish a provable error bound that compares the OOD detection performance with and without ID labels, unveiling conditions for achieving enhanced OOD detection. Lastly, we present empirical results on both simulated and real datasets, validating theoretical guarantees and reinforcing our insights. Code is publicly available at https://github.com/deeplearning-wisc/id_label.
翻訳日:2024-05-30 21:33:21 公開日:2024-05-28
# 思想のマーケットプレースとしてのChatGPT:真理を探求することはAIコンテンツガバナンスのゴールか?

ChatGPT as the Marketplace of Ideas: Should Truth-Seeking Be the Goal of AI Content Governance? ( http://arxiv.org/abs/2405.18636v1 )

ライセンス: Link先を確認
Jiawei Zhang, (参考訳) 法的な議論の中で最も永続的なメタファーの1つとして、アイデアの市場は、何十年にもわたって、法学的な風景にかなりの影響力を及ぼしてきた。 この理論の発端から1世紀後、ChatGPTは21世紀に革命的な技術進歩として登場した。 本研究は,ChatGPTがマーケットプレースメタファーを効果的に表していることを示す。 代々の法学者によって望まれる約束をインスタンス化するだけでなく、持続的な学術的批判を通じて認識される危険を埋める。 特に、ChatGPTの業績とアイデア理論の市場は、少なくとも4つの共通の特徴(アリーナ、手段、目的、欠陥)を示している。 これらの共有属性は、歴史的にアイデア理論のマーケットプレースを実現するための最も適格なエンジンをChatGPTに与えるのに十分である。 マーケットプレース理論とChatGPTの比較は単なる出発点である。 より意味のある取り組みは、市場理論を修正するために研究者が提起した経験、洞察、提案の蓄積を参照することによって、内部と外部のAIポリシを再評価し再検討することである。 AIコンテンツガバナンスの目標として、真理を探すべきなのか? 絶対的真理探索の目標が達成不可能であることを考えると、ゼロリスク政策の採用に反対する。 代わりに、より司法的なアプローチは、十分な正当化に基づいて競合する異なる視点を生成するために、大きな言語モデル(LLM)を訓練する知識ベースの代替案を採用することである。 この研究は、いわゆるAIコンテンツリスクはAI企業が生み出すものではなく、情報エコシステム全体に固有のものだとも主張している。 したがって、これらのリスク管理の負担は、チャットボット会社にのみ負担されるのではなく、異なるソーシャルアクターに分散されるべきである。

As one of the most enduring metaphors within legal discourse, the marketplace of ideas has wielded considerable influence over the jurisprudential landscape for decades. A century after the inception of this theory, ChatGPT emerged as a revolutionary technological advancement in the twenty-first century. This research finds that ChatGPT effectively manifests the marketplace metaphor. It not only instantiates the promises envisaged by generations of legal scholars but also lays bare the perils discerned through sustained academic critique. Specifically, the workings of ChatGPT and the marketplace of ideas theory exhibit at least four common features: arena, means, objectives, and flaws. These shared attributes are sufficient to render ChatGPT historically the most qualified engine for actualizing the marketplace of ideas theory. The comparison of the marketplace theory and ChatGPT merely marks a starting point. A more meaningful undertaking entails reevaluating and reframing both internal and external AI policies by referring to the accumulated experience, insights, and suggestions researchers have raised to fix the marketplace theory. Here, a pivotal issue is: should truth-seeking be set as the goal of AI content governance? Given the unattainability of the absolute truth-seeking goal, I argue against adopting zero-risk policies. Instead, a more judicious approach would be to embrace a knowledge-based alternative wherein large language models (LLMs) are trained to generate competing and divergent viewpoints based on sufficient justifications. This research also argues that so-called AI content risks are not created by AI companies but are inherent in the entire information ecosystem. Thus, the burden of managing these risks should be distributed among different social actors, rather than being solely shouldered by chatbot companies.
翻訳日:2024-05-30 21:33:21 公開日:2024-05-28
# ConSiDERS-The-Human Evaluation Framework: 生成型大規模言語モデルに対する人的評価の再考

ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models ( http://arxiv.org/abs/2405.18638v1 )

ライセンス: Link先を確認
Aparna Elangovan, Ling Liu, Lei Xu, Sravan Bodapati, Dan Roth, (参考訳) 本稿では,人為的な大規模言語モデル(LLM)の評価は,ユーザエクスペリエンス研究や人間の行動心理学といった分野から洞察を得て,実験設計と結果の信頼性を確保するための多分野的な取り組みであるべきだ,と論じる。 これらの評価から得られた結論は、ユーザビリティ、美学、認知バイアスなどの要因を考慮しなければならない。 認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。 さらに、評価は、効果的なテストセットを必要とする、ますます強力な大規模言語モデルの能力と弱点を区別するべきである。 人的評価のスケーラビリティは、広く採用するためにも不可欠である。 そこで, 生成NLP時代の効果的な人的評価システムを設計するために, コンシダーS-The-Human評価フレームワークを提案し, 一貫性, Scoring Critera, 差別化, ユーザエクスペリエンス, 責任, スケーラビリティの6つの柱からなる。

In this position paper, we argue that human evaluation of generative large language models (LLMs) should be a multidisciplinary undertaking that draws upon insights from disciplines such as user experience research and human behavioral psychology to ensure that the experimental design and results are reliable. The conclusions from these evaluations, thus, must consider factors such as usability, aesthetics, and cognitive biases. We highlight how cognitive biases can conflate fluent information and truthfulness, and how cognitive uncertainty affects the reliability of rating scores such as Likert. Furthermore, the evaluation should differentiate the capabilities and weaknesses of increasingly powerful large language models -- which requires effective test sets. The scalability of human evaluation is also crucial to wider adoption. Hence, to design an effective human evaluation system in the age of generative NLP, we propose the ConSiDERS-The-Human evaluation framework consisting of 6 pillars --Consistency, Scoring Critera, Differentiating, User Experience, Responsible, and Scalability.
翻訳日:2024-05-30 21:23:36 公開日:2024-05-28
# 自己教師付き事前学習によるECoGからの音声復号化

Improving Speech Decoding from ECoG with Self-Supervised Pretraining ( http://arxiv.org/abs/2405.18639v1 )

ライセンス: Link先を確認
Brian A. Yuan, Joseph G. Makin, (参考訳) 頭蓋内脳と機械のインタフェースに関する最近の研究は、音声音声を高精度にデコードできることを実証している。 しかし、そのようなネットワークは、非常に多くのラベル付きデータで表現力を得るため、人間の患者から取得した侵襲的なニューラル記録には特に負担となる要件である。 一方、これらの患者は典型的には、デコーダの訓練に用いられる実験ブロックの外で音声を生成する。 このようなデータや、他の患者のデータを利用してデコードを改善することで、データ収集の負担が軽減される。 ここでは、心電図(ECoG)データに対するノイズコントラスト損失を用いて音声の潜時表現を学習する、単純で自己監督的で完全な畳み込みモデルであるwav2vecを再設計することで、これが可能であることを実証する。 ラベル付き音声セッションからwav2vecの表現空間にECoGを変換した後、最終的に教師付きエンコーダデコーダをトレーニングし、これらの表現をテキストにマッピングする。 多数のラベル付きブロックを実験し、ほとんどの場合、新しい表現は元のECoGデータよりも優れた復号化性能が得られる。 他の患者のデータにwav2vecを事前学習することで、パフォーマンスを向上させることもできる。 ベストケースでは、wav2vecの表現は元のデータに対する単語誤り率を50%以上減少させる。

Recent work on intracranial brain-machine interfaces has demonstrated that spoken speech can be decoded with high accuracy, essentially by treating the problem as an instance of supervised learning and training deep neural networks to map from neural activity to text. However, such networks pay for their expressiveness with very large numbers of labeled data, a requirement that is particularly burdensome for invasive neural recordings acquired from human patients. On the other hand, these patients typically produce speech outside of the experimental blocks used for training decoders. Making use of such data, and data from other patients, to improve decoding would ease the burden of data collection -- especially onerous for dys- and anarthric patients. Here we demonstrate that this is possible, by reengineering wav2vec -- a simple, self-supervised, fully convolutional model that learns latent representations of audio using a noise-contrastive loss -- for electrocorticographic (ECoG) data. We train this model on unlabelled ECoG recordings, and subsequently use it to transform ECoG from labeled speech sessions into wav2vec's representation space, before finally training a supervised encoder-decoder to map these representations to text. We experiment with various numbers of labeled blocks; for almost all choices, the new representations yield superior decoding performance to the original ECoG data, and in no cases do they yield worse. Performance can also be improved in some cases by pretraining wav2vec on another patient's data. In the best cases, wav2vec's representations decrease word error rates over the original data by upwards of 50%.
翻訳日:2024-05-30 21:23:36 公開日:2024-05-28
# 閉時間曲線上の生命

Life on a closed timelike curve ( http://arxiv.org/abs/2405.18640v1 )

ライセンス: Link先を確認
Lorenzo Gavassino, (参考訳) 我々は、G\"{o}del-型宇宙において、近時のような曲線を走行する仮説的宇宙船の内部動力学を研究する。 適切な時間における進化の生成元が角運動量となるように曲線を選択する。 ウィグナーの定理を用いて、宇宙船の内部のエネルギー準位が自然に離散化されなければならないことを証明する。 レベル分離は、曲線のラウンドトリップを完了した後、全ての系が初期状態に戻るように微調整されることが判明した。 これは例えば、宇宙船内の観測者の記憶が、旅の終わりまでに必ず消されることを意味する。 さらに一般に、エントロピーが増加すると、ポアンカー・'{e} サイクルはループの終わりまでにそれを反転させ、エントロピーはその初期値に還元する。 このようなエントロピーの減少は固有状態熱化仮説と一致している。 時間トラバーパラドックスの非存在は、我々の分析の厳密な概要として従う。

We study the internal dynamics of a hypothetical spaceship traveling on a close timelike curve in a G\"{o}del-type universe. We choose the curve so that the generator of evolution in proper time is the angular momentum. Using Wigner's theorem, we prove that the energy levels internal to the spaceship must undergo spontaneous discretization. The level separation turns out to be finely tuned so that, after completing a roundtrip of the curve, all systems are back to their initial state. This implies, for example, that the memories of an observer inside the spaceship are necessarily erased by the end of the journey. More in general, if there is an increase in entropy, a Poincar\'{e} cycle will eventually reverse it by the end of the loop, forcing entropy to decrease back to its initial value. We show that such decrease in entropy is in agreement with the eigenstate thermalization hypothesis. The non-existence of time-travel paradoxes follows as a rigorous corollary of our analysis.
翻訳日:2024-05-30 21:23:36 公開日:2024-05-28
# 有害微調整に対する大規模言語モデルの遅延安全アライメント

Lazy Safety Alignment for Large Language Models against Harmful Fine-tuning ( http://arxiv.org/abs/2405.18641v1 )

ライセンス: Link先を確認
Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu, (参考訳) 近年の研究では、有害データと混合したデータセットを微調整することで、安全アライメントを伴うLarge Language Models (LLM) を脱獄することができることが示されている。 文献ではじめて、調整段階の状態を分離し、アライメントとユーザデータセットを最適化することで、脱獄効果を緩和できることを示す。 残念なことに、その後の研究では、この単純な双状態最適化(BSO)ソリューションは、アライメント状態に投資するステップが小さすぎると収束不安定になり、アライメント性能が低下することを示した。 統計的解析により, コンセンサスに対するtextit{excess drift} が不安定性の原因となる可能性が示唆された。 この問題を治療するために、各状態のドリフトを制限するための近項を導入する、 \textbf{L}azy(\textbf{i}) \textbf{s}afety \textbf{a}lignment(\textbf{Lisa})を提案する。 理論的には、近位項の利点は収束解析によって支えられ、リサの収束を保証するのに十分な大きな近位因子が必要であることを示す。 その結果,LLMの精度をユーザタスクに保ちながら,近似項を持つLisaはアライメント性能を著しく向上させることができることがわかった。 コードは \url{https://github.com/git-disl/Lisa} で入手できる。

Recent studies show that Large Language Models (LLMs) with safety alignment can be jail-broken by fine-tuning on a dataset mixed with harmful data. First time in the literature, we show that the jail-broken effect can be mitigated by separating states in the finetuning stage to optimize the alignment and user datasets. Unfortunately, our subsequent study shows that this simple Bi-State Optimization (BSO) solution experiences convergence instability when steps invested in its alignment state is too small, leading to downgraded alignment performance. By statistical analysis, we show that the \textit{excess drift} towards consensus could be a probable reason for the instability. To remedy this issue, we propose \textbf{L}azy(\textbf{i}) \textbf{s}afety \textbf{a}lignment (\textbf{Lisa}), which introduces a proximal term to constraint the drift of each state. Theoretically, the benefit of the proximal term is supported by the convergence analysis, wherein we show that a sufficient large proximal factor is necessary to guarantee Lisa's convergence. Empirically, our results on four downstream finetuning tasks show that Lisa with a proximal term can significantly increase alignment performance while maintaining the LLM's accuracy on the user tasks. Code is available at \url{https://github.com/git-disl/Lisa}.
翻訳日:2024-05-30 21:23:36 公開日:2024-05-28
# JADS: 自己教師型共同アスペクト発見と要約のためのフレームワーク

JADS: A Framework for Self-supervised Joint Aspect Discovery and Summarization ( http://arxiv.org/abs/2405.18642v1 )

ライセンス: Link先を確認
Xiaobo Guo, Jay Desai, Srinivasan H. Sengamedu, (参考訳) テキスト文書の複数の側面やトピックを含む要約を生成するために、ほとんどのアプローチでは、クラスタリングやトピックモデリングを使用して関連する文をグループ化し、各グループの要約を生成する。 これらのアプローチは、要約アルゴリズムとクラスタリングアルゴリズムを共同で最適化するのに苦労する。 一方、アスペクトベースの要約は既知のアスペクトを必要とする。 私たちのソリューションはトピックの発見と要約をひとつのステップに統合します。 テキストデータを与えられた場合、JADS(Joint Aspect Discovery and Summarization Algorithm)は入力からアスペクトを発見し、トピックの要約を生成する。 本稿では,まず複数の文書(例えば,CNN/DailyMail記事)からの文を入力として混合してラベル付きデータセットを生成し,その混合物の要約をラベルとして利用する自己教師型フレームワークを提案する。 JADSモデルは、2段階のベースラインよりも優れています。 事前トレーニングでは、モデルの性能と安定性が向上する。 さらに、JADSから派生した埋め込みはより優れたクラスタリング能力を示す。 提案手法は,地上の真理と高いセマンティックアライメントを実現し,現実的である。

To generate summaries that include multiple aspects or topics for text documents, most approaches use clustering or topic modeling to group relevant sentences and then generate a summary for each group. These approaches struggle to optimize the summarization and clustering algorithms jointly. On the other hand, aspect-based summarization requires known aspects. Our solution integrates topic discovery and summarization into a single step. Given text data, our Joint Aspect Discovery and Summarization algorithm (JADS) discovers aspects from the input and generates a summary of the topics, in one step. We propose a self-supervised framework that creates a labeled dataset by first mixing sentences from multiple documents (e.g., CNN/DailyMail articles) as the input and then uses the article summaries from the mixture as the labels. The JADS model outperforms the two-step baselines. With pretraining, the model achieves better performance and stability. Furthermore, embeddings derived from JADS exhibit superior clustering capabilities. Our proposed method achieves higher semantic alignment with ground truth and is factual.
翻訳日:2024-05-30 21:23:36 公開日:2024-05-28
# データクラスタリングによる光検出磁気共鳴スペクトルの高速キャラクタリゼーション

Fast characterization of optically detected magnetic resonance spectra via data clustering ( http://arxiv.org/abs/2405.18648v1 )

ライセンス: Link先を確認
Dylan G. Stone, Benjamin Whitefield, Mehran Kianinia, Carlo Bradac, (参考訳) 光検出磁気共鳴(ODMR)は、室温で固体量子エミッタのスピン状態を測定するための、確立された強力な技術となっている。 放出体、励起状態、準安定状態を含むスピン依存的な再結合プロセスに基づき、ODMRは個々の電子と核スピンのイメージングだけでなく、ナノスケールの電場、温度、ひずみ、圧力のスピンベースの量子センシングを可能にしている。 これらのセンサーの多くの応用の中心は、これらのスペクトルの共鳴周波数が、スピンセンサーに作用する物理量に直接マップされるので、ODMRデータを確実に分析する能力である。 しかし、これは面倒なことであり、従来のフィッティング法を用いて共鳴を決定するのに適した信号対雑音レベルに達するのに、ミリ秒から数秒までの比較的長い積分時間が必要である。 本稿では,この制限を克服し,ODMRスペクトルの共振周波数を精度良く(~1.3x因子),高分解能(〜4.7x因子),および/または全データ点(〜5x因子)で決定するアルゴリズムを提案する。 提案したクラスタリングアルゴリズム(CA)は、多くのODMRベースの量子センシングアプリケーション、特にノイズや少ないデータセットを扱う場合、強力なツールである。

Optically detected magnetic resonance (ODMR) has become a well-established and powerful technique for measuring the spin state of solid-state quantum emitters, at room temperature. Relying on spin-dependent recombination processes involving the emitters ground, excited and metastable states, ODMR is enabling spin-based quantum sensing of nanoscale electric and magnetic fields, temperature, strain and pressure, as well as imaging of individual electron and nuclear spins. Central to many of these sensing applications is the ability to reliably analyze ODMR data, as the resonance frequencies in these spectra map directly onto target physical quantities acting on the spin sensor. However, this can be onerous, as relatively long integration times -- from milliseconds up to tens of seconds -- are often needed to reach a signal-to-noise level suitable to determine said resonances using traditional fitting methods. Here, we present an algorithm based on data clustering that overcome this limitation and allows determining the resonance frequencies of ODMR spectra with better accuracy (~1.3x factor), higher resolution (~4.7x factor) and/or overall fewer data points (~5x factor) than standard approaches based on statistical inference. The proposed clustering algorithm (CA) is thus a powerful tool for many ODMR-based quantum sensing applications, especially when dealing with noisy and scarce data sets.
翻訳日:2024-05-30 21:23:36 公開日:2024-05-28
# LLMをトレーニングして自己デバッグと説明的コードを改善する

Training LLMs to Better Self-Debug and Explain Code ( http://arxiv.org/abs/2405.18649v1 )

ライセンス: Link先を確認
Nan Jiang, Xiaopeng Li, Shiqi Wang, Qiang Zhou, Soneya Binta Hossain, Baishakhi Ray, Varun Kumar, Xiaofei Ma, Anoop Deoras, (参考訳) コード生成の分野では、自己デバッグが重要です。 LLMは実行フィードバックに基づいて生成されたコードを洗練することができる。 なぜなら、1回の試行で正しい解を生成することは、複雑なタスクに挑戦することを証明しているからである。 自己デバッグに関する以前の作業は主に、小さなオープンソースLLMではうまく動作しない、いくつかの例でLLMを提供することによって、メソッドのプロンプトに重点を置いていた。 本研究では,LLMの自己デバッグ能力を大幅に向上させるトレーニングフレームワークを提案する。 直感的には、間違ったコードに対する一連の説明とコードの改良が、LLMが間違ったコードを分析し、改善するのに役立ちます。 そこで本稿では,コード説明や洗練のための高品質なデータセットを自動で収集するパイプラインを提案する。 コード説明と改良品質を考慮した新たな報酬設計により, 成功軌道と失敗軌道の両面において, 教師付き微調整(SFT)と強化学習(RL)を行う。 SFTは、パス@1を最大15.92%改善し、パス@10を4つのベンチマークで9.30%改善した。 RLトレーニングでは、pass@1が3.54%、pass@10が2.55%改善されている。 トレーニングされたLLMは反復的な精錬能力を示し、コードを継続的に精錬し続けることができる。 最後に、我々の人間による評価は、我々のフレームワークで訓練されたLLMがより有用なコード説明を生成し、開発者がソースコードのバグをよりよく理解するのに役立ちます。

In the domain of code generation, self-debugging is crucial. It allows LLMs to refine their generated code based on execution feedback. This is particularly important because generating correct solutions in one attempt proves challenging for complex tasks. Prior works on self-debugging mostly focus on prompting methods by providing LLMs with few-shot examples, which work poorly on small open-sourced LLMs. In this work, we propose a training framework that significantly improves self-debugging capability of LLMs. Intuitively, we observe that a chain of explanations on the wrong code followed by code refinement helps LLMs better analyze the wrong code and do refinement. We thus propose an automated pipeline to collect a high-quality dataset for code explanation and refinement by generating a number of explanations and refinement trajectories and filtering via execution verification. We perform supervised fine-tuning (SFT) and further reinforcement learning (RL) on both success and failure trajectories with a novel reward design considering code explanation and refinement quality. SFT improves the pass@1 by up to 15.92% and pass@10 by 9.30% over four benchmarks. RL training brings additional up to 3.54% improvement on pass@1 and 2.55% improvement on pass@10. The trained LLMs show iterative refinement ability, and can keep refining code continuously. Lastly, our human evaluation shows that the LLMs trained with our framework generate more useful code explanations and help developers better understand bugs in source code.
翻訳日:2024-05-30 21:23:36 公開日:2024-05-28
# 論証に基づく対話における人間モデルの近似

Approximating Human Models During Argumentation-based Dialogues ( http://arxiv.org/abs/2405.18650v1 )

ライセンス: Link先を確認
Yinxu Tang, Stylianos Loukas Vasileiou, William Yeoh, (参考訳) 説明可能なAIプランニング(XAIP)は、人間のユーザへの意思決定とアクションを効果的に説明し、信頼を育み、人間とAIのコラボレーションを促進するAIエージェントを開発することを目的としている。 XAIPにおける重要な課題は、AIエージェントと人間のメンタルモデルを調整するためのモデル和解である。 既存のアプローチはしばしば、既知の決定論的人間モデルと仮定するが、この単純化は現実世界の相互作用の複雑さや不確実性を捉えないかもしれない。 本稿では,AIエージェントが議論に基づく対話を通じて確率的人間モデルを学習し,更新することを可能にする新しいフレームワークを提案する。 提案手法は,信頼に基づく,確実性に基づく更新機構を取り入れ,エージェントが,エージェントの主張に対する人間の信頼と,自身の議論における確実性に基づいて,人間の精神状態に対する理解を深めることを可能にする。 確率重み付け関数は確率理論にインスパイアされた確率重み付け関数を用いて信頼と認識された確率の関係を捉え、ベイズ的手法を用いてエージェントの確率分布を人間モデル上で更新する。 本研究では,議論シナリオにおけるアプローチの有効性を実証的に評価し,人間の信念の形成と適応のダイナミクスを捉える能力を示す。

Explainable AI Planning (XAIP) aims to develop AI agents that can effectively explain their decisions and actions to human users, fostering trust and facilitating human-AI collaboration. A key challenge in XAIP is model reconciliation, which seeks to align the mental models of AI agents and humans. While existing approaches often assume a known and deterministic human model, this simplification may not capture the complexities and uncertainties of real-world interactions. In this paper, we propose a novel framework that enables AI agents to learn and update a probabilistic human model through argumentation-based dialogues. Our approach incorporates trust-based and certainty-based update mechanisms, allowing the agent to refine its understanding of the human's mental state based on the human's expressed trust in the agent's arguments and certainty in their own arguments. We employ a probability weighting function inspired by prospect theory to capture the relationship between trust and perceived probability, and use a Bayesian approach to update the agent's probability distribution over possible human models. We conduct a human-subject study to empirically evaluate the effectiveness of our approach in an argumentation scenario, demonstrating its ability to capture the dynamics of human belief formation and adaptation.
翻訳日:2024-05-30 21:23:36 公開日:2024-05-28
# ボットとオンライン政治コミュニケーションへの動的システムアプローチ

A Dynamical Systems Approach to Bots and Online Political Communication ( http://arxiv.org/abs/2405.18652v1 )

ライセンス: Link先を確認
Beril Bulat, Martin Hilbert, (参考訳) ボットはデジタル世界でますます普及し、民主的なプロセスを形作る上で積極的な役割を担ってきた。 これまでの研究では、個々のレベルでの影響に焦点が当てられていたが、通信力学に対するマクロレベルの潜在的な影響は、まだほとんど理解されていない。 本研究は、Twitter上でのオンライン政治討論の力学を形作る政治ボットの役割を検討するために、動的システム理論からの情報理論的アプローチを採用する。 我々は、この動的プロセスのコンポーネントを、その複雑さ、予測可能性、および残りの不確実性の観点から定量化する。 本研究は, ボット活動が, オンライン政治コミュニケーションの構造力学における複雑性と不確実性に関連していることを示唆している。 この研究は、時間とともに展開する計算プロセスとして人間のボット力学をモデル化する際に、力学系理論からの情報理論測度を使用するためのショーケースとして機能する。

Bots have become increasingly prevalent in the digital sphere and have taken up a proactive role in shaping democratic processes. While previous studies have focused on their influence at the individual level, their potential macro-level impact on communication dynamics is still little understood. This study adopts an information theoretic approach from dynamical systems theory to examine the role of political bots shaping the dynamics of an online political discussion on Twitter. We quantify the components of this dynamic process in terms of its complexity, predictability, and the remaining uncertainty. Our findings suggest that bot activity is associated with increased complexity and uncertainty in the structural dynamics of online political communication. This work serves as a showcase for the use of information-theoretic measures from dynamical systems theory in modeling human-bot dynamics as a computational process that unfolds over time.
翻訳日:2024-05-30 21:23:36 公開日:2024-05-28
# 基礎言語モデルに基づく継続的学習の最近の進歩

Recent Advances of Foundation Language Models-based Continual Learning: A Survey ( http://arxiv.org/abs/2405.18653v1 )

ライセンス: Link先を確認
Yutao Yang, Jie Zhou, Xuanwen Ding, Tianyu Huai, Shunyu Liu, Qin Chen, Liang He, Yuan Xie, (参考訳) 近年,基盤言語モデル (LM) は自然言語処理 (NLP) とコンピュータビジョン (CV) の分野において重要な成果を上げている。 従来のニューラルネットワークモデルとは異なり、ファンデーションLMは、膨大な数のパラメータを持つ広範囲な教師なしデータセットの事前トレーニングを通じて、豊富なコモンセンス知識を取得することによって、伝達学習の優れた能力を得る。 しかし、破滅的な忘れ物のために、人間のような継続的学習をエミュレートすることはできない。 その結果,従来の知識を忘れずに新たなタスクに適応できるように,様々な連続学習(CL)ベースの手法が開発されている。 しかし、既存のアプローチの体系的な分類とそれらの性能の比較はいまだに欠落しており、これは我々の調査が目指すギャップである。 予備学習言語モデル(PLM)、大規模言語モデル(LLM)、視覚言語モデル(VLM)など、基礎言語モデルに適用されたCLに基づく既存文献の包括的なレビュー、要約、分類について検討する。 我々はこれらの研究を,従来の手法,パラメータ効率に基づく手法,命令チューニングに基づく手法,連続的な事前学習手法からなるオフラインCLとオンラインCLに分割する。 オフラインCLはドメイン・インクリメンタル・ラーニング、タスク・インクリメンタル・ラーニング、クラス・インクリメンタル・ラーニングを含む。 さらに,CL研究で使用される典型的なデータセットとメトリクスを概説し,LMを用いた連続学習における課題と今後の課題を詳細に分析する。

Recently, foundation language models (LMs) have marked significant achievements in the domains of natural language processing (NLP) and computer vision (CV). Unlike traditional neural network models, foundation LMs obtain a great ability for transfer learning by acquiring rich commonsense knowledge through pre-training on extensive unsupervised datasets with a vast number of parameters. However, they still can not emulate human-like continuous learning due to catastrophic forgetting. Consequently, various continual learning (CL)-based methodologies have been developed to refine LMs, enabling them to adapt to new tasks without forgetting previous knowledge. However, a systematic taxonomy of existing approaches and a comparison of their performance are still lacking, which is the gap that our survey aims to fill. We delve into a comprehensive review, summarization, and classification of the existing literature on CL-based approaches applied to foundation language models, such as pre-trained language models (PLMs), large language models (LLMs) and vision-language models (VLMs). We divide these studies into offline CL and online CL, which consist of traditional methods, parameter-efficient-based methods, instruction tuning-based methods and continual pre-training methods. Offline CL encompasses domain-incremental learning, task-incremental learning, and class-incremental learning, while online CL is subdivided into hard task boundary and blurry task boundary settings. Additionally, we outline the typical datasets and metrics employed in CL research and provide a detailed analysis of the challenges and future work for LMs-based continual learning.
翻訳日:2024-05-30 21:23:36 公開日:2024-05-28
# データ拡張コントラストチューニングによる物体幻覚の緩和

Mitigating Object Hallucination via Data Augmented Contrastive Tuning ( http://arxiv.org/abs/2405.18654v1 )

ライセンス: Link先を確認
Pritam Sarkar, Sayna Ebrahimi, Ali Etemad, Ahmad Beirami, Sercan Ö. Arık, Tomas Pfister, (参考訳) その顕著な進歩にもかかわらず、MLLM(Multimodal Large Language Models)は事実的不正確な情報を幻覚する傾向がある。 本研究では,MLLMのオブジェクト幻覚に対処し,モデル入力に存在しないオブジェクトに関する情報を提供する。 本稿では,幻覚を緩和するための事前訓練された既成のMLLMに適用可能な,一般的な視覚言語機能を維持しつつ,コントラスト的なチューニング手法を提案する。 与えられた実数トークンに対して,地筋情報を選択的に変更することにより,生成データ拡張による幻覚トークンを作成する。 提案したコントラッシブチューニングはトークンレベルで適用され、幻覚化トークンと比較して事実トークンの相対的可能性を向上させる。 本研究は,幻覚の緩和におけるコントラストチューニングの有効性を徹底的に評価する。 さらに、提案するコントラストチューニングは単純で高速で、推論時に追加のオーバーヘッドを伴わずに最小限のトレーニングを必要とする。

Despite their remarkable progress, Multimodal Large Language Models (MLLMs) tend to hallucinate factually inaccurate information. In this work, we address object hallucinations in MLLMs, where information is offered about an object that is not present in the model input. We introduce a contrastive tuning method that can be applied to a pretrained off-the-shelf MLLM for mitigating hallucinations while preserving its general vision-language capabilities. For a given factual token, we create a hallucinated token through generative data augmentation by selectively altering the ground-truth information. The proposed contrastive tuning is applied at the token level to improve the relative likelihood of the factual token compared to the hallucinated one. Our thorough evaluation confirms the effectiveness of contrastive tuning in mitigating hallucination. Moreover, the proposed contrastive tuning is simple, fast, and requires minimal training with no additional overhead at inference.
翻訳日:2024-05-30 21:23:36 公開日:2024-05-28
# CAVACHON:マルチモーダル単一セルデータを統合する階層的変分オートエンコーダ

CAVACHON: a hierarchical variational autoencoder to integrate multi-modal single-cell data ( http://arxiv.org/abs/2405.18655v1 )

ライセンス: Link先を確認
Ping-Han Hsieh, Ru-Xiu Hsiao, Katalin Ferenc, Anthony Mathelier, Rebekka Burkholz, Chien-Yu Chen, Geir Kjetil Sandve, Tatiana Belova, Marieke Lydia Kuijjer, (参考訳) ペアリング単一セルシークエンシング技術により、分子データの相補的モダリティを単一セル分解能で同時測定できる。 これらの技術の進歩とともに、これらのデータを統合するために変分オートエンコーダに基づく多くの手法が開発されている。 しかし、これらの手法は、モデリングと解釈を大幅に強化する可能性があるデータモダリティ間の先行する生物学的関係を明示的に含んでいるわけではない。 一般化階層型変分オートエンコーダを用いて,多モードデータ間の条件付き独立関係を有向非巡回グラフとして明示的に組み込んだ新しい確率論的学習フレームワークを提案する。 単セルマルチオミクスデータ統合に関連する様々なアプリケーションにおけるフレームワークの汎用性を実証する。 これらには、共通の情報と異なる情報を異なるモダリティから分離すること、モダリティ固有の差分解析、統合されたセルクラスタリングが含まれる。 提案手法は, 生物学的仮説の複雑さを捉え, ペア化された単一セルマルチオミクスデータの異なるモジュラリティなど, 異なる生物学的データ型間の接続を解き明かす, 高度に柔軟なグラフィカルモデルの構築を容易にすることを期待する。 提案されたフレームワークの実装は、リポジトリhttps://github.com/kuijjerlab/CAVACHONで見ることができる。

Paired single-cell sequencing technologies enable the simultaneous measurement of complementary modalities of molecular data at single-cell resolution. Along with the advances in these technologies, many methods based on variational autoencoders have been developed to integrate these data. However, these methods do not explicitly incorporate prior biological relationships between the data modalities, which could significantly enhance modeling and interpretation. We propose a novel probabilistic learning framework that explicitly incorporates conditional independence relationships between multi-modal data as a directed acyclic graph using a generalized hierarchical variational autoencoder. We demonstrate the versatility of our framework across various applications pertinent to single-cell multi-omics data integration. These include the isolation of common and distinct information from different modalities, modality-specific differential analysis, and integrated cell clustering. We anticipate that the proposed framework can facilitate the construction of highly flexible graphical models that can capture the complexities of biological hypotheses and unravel the connections between different biological data types, such as different modalities of paired single-cell multi-omics data. The implementation of the proposed framework can be found in the repository https://github.com/kuijjerlab/CAVACHON.
翻訳日:2024-05-30 21:23:36 公開日:2024-05-28
# D-CoRP:機能的脳ネットワークのための微分接続性再構成

D-CoRP: Differentiable Connectivity Refinement for Functional Brain Networks ( http://arxiv.org/abs/2405.18658v1 )

ライセンス: Link先を確認
Haoyu Hu, Hongrun Zhang, Chao Li, (参考訳) 脳ネットワークは脳を理解するための重要なツールであり、科学的研究と臨床診断のための洞察を提供する。 脳ネットワークの既存のモデルは、主に脳の領域に焦点を当てるか、または脳の結合性の複雑さを見落としている。 MRI由来の脳ネットワークデータは通常、接続ノイズの影響を受けやすいため、脳ネットワークのモデリングに接続性を導入する必要がある。 このギャップに対処するために、脳の接続性を改善するための識別可能なモジュールを導入する。 我々は,脳ネットワークの複雑さに対処し,ノイズや冗長な接続をフィルタするために,情報ボトルネック理論に基づく多変量最適化を開発する。 また,本手法は,ほとんどのグラフニューラルネットワークに適用可能な柔軟なプラグインとして機能する。 実験の結果,提案手法は様々なベースラインモデルの性能を著しく向上し,他の最先端手法よりも優れており,脳ネットワーク接続性の改善における提案手法の有効性と一般化性を示している。 コードは一般公開される予定だ。

Brain network is an important tool for understanding the brain, offering insights for scientific research and clinical diagnosis. Existing models for brain networks typically primarily focus on brain regions or overlook the complexity of brain connectivities. MRI-derived brain network data is commonly susceptible to connectivity noise, underscoring the necessity of incorporating connectivities into the modeling of brain networks. To address this gap, we introduce a differentiable module for refining brain connectivity. We develop the multivariate optimization based on information bottleneck theory to address the complexity of the brain network and filter noisy or redundant connections. Also, our method functions as a flexible plugin that is adaptable to most graph neural networks. Our extensive experimental results show that the proposed method can significantly improve the performance of various baseline models and outperform other state-of-the-art methods, indicating the effectiveness and generalizability of the proposed method in refining brain network connectivity. The code will be released for public availability.
翻訳日:2024-05-30 21:23:36 公開日:2024-05-28
# 大規模言語モデルにおける内在的社会経済バイアスの理解

Understanding Intrinsic Socioeconomic Biases in Large Language Models ( http://arxiv.org/abs/2405.18662v1 )

ライセンス: Link先を確認
Mina Arzaghi, Florian Carichon, Golnoosh Farnadi, (参考訳) 大規模言語モデル(LLM)は、ローン承認やビザアプリケーションといった重要な意思決定プロセスに統合されつつある。 本稿では, LLMにおける人口特性と社会経済的バイアスの関係について検討する。 様々な人口集団における社会経済的バイアスを体系的に定量化するために,100万の英文からなる新しいデータセットを導入する。 以上の結果から, GPT-2 や Llama 2 や Falcon のような最先端モデルの両方において, 社会経済的バイアスが広範に存在することが明らかとなった。 これらのバイアスは交叉性を考慮すると顕著に増幅され、LSMは名前から複数の人口特性を抽出し、特定の社会経済的バイアスと相関する顕著な能力を示す。 この研究は、これらの強力なモデルをクリティカルな現実世界のアプリケーションにデプロイする際に、差別的な結果から保護するために、積極的に頑健なバイアス軽減技術が必要であることを強調している。

Large Language Models (LLMs) are increasingly integrated into critical decision-making processes, such as loan approvals and visa applications, where inherent biases can lead to discriminatory outcomes. In this paper, we examine the nuanced relationship between demographic attributes and socioeconomic biases in LLMs, a crucial yet understudied area of fairness in LLMs. We introduce a novel dataset of one million English sentences to systematically quantify socioeconomic biases across various demographic groups. Our findings reveal pervasive socioeconomic biases in both established models such as GPT-2 and state-of-the-art models like Llama 2 and Falcon. We demonstrate that these biases are significantly amplified when considering intersectionality, with LLMs exhibiting a remarkable capacity to extract multiple demographic attributes from names and then correlate them with specific socioeconomic biases. This research highlights the urgent necessity for proactive and robust bias mitigation techniques to safeguard against discriminatory outcomes when deploying these powerful models in critical real-world applications.
翻訳日:2024-05-30 21:23:36 公開日:2024-05-28
# コントラスト戦略による生涯学習と選択フォーミング

Lifelong Learning and Selective Forgetting via Contrastive Strategy ( http://arxiv.org/abs/2405.18663v1 )

ライセンス: Link先を確認
Lianlei Shan, Wenzhang Zhou, Wei Li, Xingyu Ding, (参考訳) Lifelong Learningは、以前のタスクのキャパシティを維持しながら、新しいタスクに対して優れたパフォーマンスでモデルをトレーニングすることを目的としている。 しかしながら、いくつかの実践シナリオでは、プライバシの問題による望ましくない知識をシステムに忘れる必要がある。 この2つの共同作業はLearning with Selective Forgetting (LSF)と呼ばれる。 本稿では,LSFのコントラスト戦略に基づく新しいフレームワークを提案する。 具体的には、保存されたクラス(タスク)に対して、同じクラス内の異なるサンプルから抽出された特徴をコンパクト化する。 削除されたクラスに対して、同じクラスの異なるサンプルの機能を分散して不規則にする。すなわち、ネットワークは特定の削除されたクラスからのサンプルに対して、まるでネットワークにトレーニングがないかのように、定期的な応答を持っていない。 機能の分散を維持したり邪魔したりすることで、異なるクラスの忘れ物と記憶を互いに独立させたりすることができる。 4つのベンチマークデータセットで実験を行い,本手法は新たな最先端技術を実現する。

Lifelong learning aims to train a model with good performance for new tasks while retaining the capacity of previous tasks. However, some practical scenarios require the system to forget undesirable knowledge due to privacy issues, which is called selective forgetting. The joint task of the two is dubbed Learning with Selective Forgetting (LSF). In this paper, we propose a new framework based on contrastive strategy for LSF. Specifically, for the preserved classes (tasks), we make features extracted from different samples within a same class compacted. And for the deleted classes, we make the features from different samples of a same class dispersed and irregular, i.e., the network does not have any regular response to samples from a specific deleted class as if the network has no training at all. Through maintaining or disturbing the feature distribution, the forgetting and memory of different classes can be or independent of each other. Experiments are conducted on four benchmark datasets, and our method acieves new state-of-the-art.
翻訳日:2024-05-30 21:23:36 公開日:2024-05-28
# 行動する前に考える: ワーキングメモリを備えた決定変換器

Think Before You Act: Decision Transformers with Working Memory ( http://arxiv.org/abs/2305.16338v3 )

ライセンス: Link先を確認
Jikun Kang, Romain Laroche, Xingdi Yuan, Adam Trischler, Xue Liu, Jie Fu, (参考訳) 決定変換器に基づく意思決定エージェントは、複数のタスクにまたがる一般化能力を示している。 しかし、その性能は大量のデータと計算に依存している。 この非効率性は、モデルがトレーニングを通してパラメータの振る舞いを記憶する忘れ現象に起因していると我々は主張する。 結果として、新しいタスクに対するトレーニングは、以前のタスクに対するモデルの性能を低下させる可能性がある。 LLMの暗黙記憶機構とは対照的に、人間の脳は分散メモリストレージを利用して複数のスキルを効率的に管理し、整理し、忘れる現象を緩和する。 そこで本研究では,ダウンストリームタスクの情報を格納,ブレンド,検索するためのワーキングメモリモジュールを提案する。 評価の結果,提案手法は,AtariゲームやMeta-Worldオブジェクト操作タスクにおけるトレーニング効率と一般化を改善していることがわかった。 さらに,メモリの微調整により,提案アーキテクチャの適応性はさらに向上することを示す。

Decision Transformer-based decision-making agents have shown the ability to generalize across multiple tasks. However, their performance relies on massive data and computation. We argue that this inefficiency stems from the forgetting phenomenon, in which a model memorizes its behaviors in parameters throughout training. As a result, training on a new task may deteriorate the model's performance on previous tasks. In contrast to LLMs' implicit memory mechanism, the human brain utilizes distributed memory storage, which helps manage and organize multiple skills efficiently, mitigating the forgetting phenomenon. Inspired by this, we propose a working memory module to store, blend, and retrieve information for different downstream tasks. Evaluation results show that the proposed method improves training efficiency and generalization in Atari games and Meta-World object manipulation tasks. Moreover, we demonstrate that memory fine-tuning further enhances the adaptability of the proposed architecture.
翻訳日:2024-05-30 11:43:58 公開日:2024-05-28
# 離散データを用いた生成モデルのための魚のフローマッチング

Fisher Flow Matching for Generative Modeling over Discrete Data ( http://arxiv.org/abs/2405.14664v3 )

ライセンス: Link先を確認
Oscar Davis, Samuel Kessler, Mircea Petrache, İsmail İlkan Ceylan, Michael Bronstein, Avishek Joey Bose, (参考訳) 離散データに対する生成的モデリングは、言語モデリング、生物学的シーケンス設計、グラフ構造化された分子データなど、最近多くの成功談を目にしている。 離散データに対する主要な生成的モデリングパラダイムは、依然として自己回帰的であり、最近では拡散やフローマッチングに基づく代替手段が、画像やビデオ生成のような連続的なデータ設定における印象的なパフォーマンスを欠いている。 本稿では,離散データのための新しいフローマッチングモデルであるFisher-Flowを紹介する。 Fisher-Flow は離散データ上のカテゴリー分布を、その自然なリーマン計量を持つ統計多様体上の点として考えることで、明らかな幾何学的視点を採っている: $\textit{Fisher-Rao metric}$。 その結果、離散データ自体は、$d$-hypersphere $\mathbb{S}^d_+$ の正のorthantに連続的に再パラメータ化され、$\mathbb{S}^d_+$ の(閉形式の)測地線に沿って質量を輸送することで、任意のソース分布をターゲットにマッピングするフローを原則的に定義できることを示した。 さらに、Fisher-Flowの学習フローは、Riemannの最適輸送を活用して、トレーニングダイナミクスを改善することで、さらにブートストラップすることができる。 Fisher-Flowにより誘導される勾配流は, 前方KLの発散を低減するのに最適であることを示す。 我々は,DNAプロモーターやDNAエンハンサー配列の設計を含む,合成および多種多様な実世界のベンチマークに基づいてFisher-Flowを評価する。 実験的に、これらのベンチマーク上で、Fisher-Flowは事前拡散およびフローマッチングモデルよりも改善されていることが判明した。

Generative modeling over discrete data has recently seen numerous success stories, with applications spanning language modeling, biological sequence design, and graph-structured molecular data. The predominant generative modeling paradigm for discrete data is still autoregressive, with more recent alternatives based on diffusion or flow-matching falling short of their impressive performance in continuous data settings, such as image or video generation. In this work, we introduce Fisher-Flow, a novel flow-matching model for discrete data. Fisher-Flow takes a manifestly geometric perspective by considering categorical distributions over discrete data as points residing on a statistical manifold equipped with its natural Riemannian metric: the $\textit{Fisher-Rao metric}$. As a result, we demonstrate discrete data itself can be continuously reparameterised to points on the positive orthant of the $d$-hypersphere $\mathbb{S}^d_+$, which allows us to define flows that map any source distribution to target in a principled manner by transporting mass along (closed-form) geodesics of $\mathbb{S}^d_+$. Furthermore, the learned flows in Fisher-Flow can be further bootstrapped by leveraging Riemannian optimal transport leading to improved training dynamics. We prove that the gradient flow induced by Fisher-Flow is optimal in reducing the forward KL divergence. We evaluate Fisher-Flow on an array of synthetic and diverse real-world benchmarks, including designing DNA Promoter, and DNA Enhancer sequences. Empirically, we find that Fisher-Flow improves over prior diffusion and flow-matching models on these benchmarks.
翻訳日:2024-05-30 11:43:58 公開日:2024-05-28
# 単純さが有効性を満たすとき--単語埋め込みとLSTMによるコードコメントの一貫性の検出

When simplicity meets effectiveness: Detecting code comments coherence with word embeddings and LSTM ( http://arxiv.org/abs/2405.16272v2 )

ライセンス: Link先を確認
Michael Dubem Igbomezie, Phuong T. Nguyen, Davide Di Ruscio, (参考訳) コードコメントは、プログラマに実用的な情報を提供し、基盤となるコードの意図や意味をよりよく理解できるようにするため、ソフトウェア開発において重要な役割を担います。 それでも、開発者はコードを更新した後にコメントをそのまま残す傾向にあり、2つのアーティファクトの間に相違が生じます。 このような不一致は開発者の間で誤解や混乱を引き起こし、コードの理解やメンテナンスなど、さまざまな活動を妨げます。 したがって、コードスニペットが与えられたら、そのコメントが一貫性があり、コードの背後にある意図をよく反映しているかどうかを特定することが重要です。 残念ながら、この問題に対する既存のアプローチは、奨励的なパフォーマンスを得る一方で、厳格に事前訓練されたモデルに頼るか、入力データをテキストとして扱うか、単語の順序や同義語を含むコメントやコードに含まれる固有の特徴を無視している。 この研究は、コードコメントコヒーレンスを検出するための実践的なアプローチとしてCo3Dを提示している。 コーパス対のコヒーレンスを予測しながら、単語の内部的意味とテキスト中の単語の逐次順序に注意を払う。 我々は、Gensim word2vecエンコーディングと単純なリカレントニューラルネットワークの組み合わせ、Gensim word2vecエンコーディングとLSTMモデルの組み合わせ、CodeBERTをデプロイした。 実験の結果,Co3Dは予測性能が良好であり,良好なベースラインを達成できた。 文脈によっては、単純なアーキテクチャを使うことで満足できる予測を導入することができると結論付けている。

Code comments play a crucial role in software development, as they provide programmers with practical information, allowing them to understand better the intent and semantics of the underpinning code. Nevertheless, developers tend to leave comments unchanged after updating the code, resulting in a discrepancy between the two artifacts. Such a discrepancy may trigger misunderstanding and confusion among developers, impeding various activities, including code comprehension and maintenance. Thus, it is crucial to identify if, given a code snippet, its corresponding comment is coherent and reflects well the intent behind the code. Unfortunately, existing approaches to this problem, while obtaining an encouraging performance, either rely on heavily pre-trained models, or treat input data as text, neglecting the intrinsic features contained in comments and code, including word order and synonyms. This work presents Co3D as a practical approach to the detection of code comment coherence. We pay attention to internal meaning of words and sequential order of words in text while predicting coherence in code-comment pairs. We deployed a combination of Gensim word2vec encoding and a simple recurrent neural network, a combination of Gensim word2vec encoding and an LSTM model, and CodeBERT. The experimental results show that Co3D obtains a promising prediction performance, thus outperforming well-established baselines. We conclude that depending on the context, using a simple architecture can introduce a satisfying prediction.
翻訳日:2024-05-30 11:33:46 公開日:2024-05-28
# 効率的なパラメータ化ニューラルメトロエレクティックシステム

Efficiently Parameterized Neural Metriplectic Systems ( http://arxiv.org/abs/2405.16305v2 )

ライセンス: Link先を確認
Anthony Gruber, Kookjin Lee, Haksoo Lim, Noseong Park, Nathaniel Trask, (参考訳) メトロトレクティックシステムは、状態の大きさとメトロトレクティックデータのランクの両方で二次的にスケールする方法でデータから学習される。 提案手法は, エネルギー保存とエントロピー安定性に加えて, 近似誤差が低い場合に, 一般化する可能性を示す誤差推定値とともに, データからメチレント力学を正確に学習する能力を示す近似結果から導かれる。 提案手法は, モデル表現率を損なうことなく, 精度とスケーラビリティが向上することを確認した。

Metriplectic systems are learned from data in a way that scales quadratically in both the size of the state and the rank of the metriplectic data. Besides being provably energy conserving and entropy stable, the proposed approach comes with approximation results demonstrating its ability to accurately learn metriplectic dynamics from data as well as an error estimate indicating its potential for generalization to unseen timescales when approximation error is low. Examples are provided which illustrate performance in the presence of both full state information as well as when entropic variables are unknown, confirming that the proposed approach exhibits superior accuracy and scalability without compromising on model expressivity.
翻訳日:2024-05-30 11:33:46 公開日:2024-05-28
# プログラム生成・エミュレーション・検索による推論学習

Learning to Reason via Program Generation, Emulation, and Search ( http://arxiv.org/abs/2405.16337v2 )

ライセンス: Link先を確認
Nathaniel Weir, Muhammad Khalifa, Linlu Qiu, Orion Weller, Peter Clark, (参考訳) 言語モデル(LM)によるプログラム合成は、様々な推論能力の集合を解き放ち、コードチューニングされたLMは、様々なアルゴリズム的記号操作タスク(例えば、単語の連結)を解くプログラムを生成することに長けていることが証明されている。 しかし、すべての推論タスクは、コードとして容易に表現できるわけではない。例えば、常識的推論、道徳的意思決定、皮肉な理解を含むタスク。 我々のゴールは、LMのプログラム合成スキルをそのようなタスクに拡張し、擬似プログラム、すなわちいくつかのリーフ関数呼び出しが未定義のままであるPythonプログラムを通じて結果を評価することである。 そのために、コード生成とエミュレートされた実行(CoGEX)を提案する。 CoGEX は(1) LM を訓練して独自の擬似プログラムを生成し、(2) それらの葉機能を含むプログラムの実行をエミュレートし、LM の知識が実行ギャップを埋めることを可能にする。 本稿では,CoGEXモデルを新しいタスクに適応させるため,与えられたデータセットのすべてのインスタンスに適用した場合に,擬似実行が最適な性能を示すプログラムを1つ探すプログラム探索を行う手法を提案する。 提案手法は,タスクのバッテリ上での標準的なコンテキスト内学習手法と比較して,アルゴリズム的推論とソフト推論の両方において大きな改善をもたらすことを示す。 この結果は、コード合成が以前考えられていたよりもはるかに幅広い問題に応用可能であることを証明している。 リリースしたデータセット、微調整されたモデル、実装は、 \url{https://github.com/nweir127/CoGEX}で確認できます。

Program synthesis with language models (LMs) has unlocked a large set of reasoning abilities; code-tuned LMs have proven adept at generating programs that solve a wide variety of algorithmic symbolic manipulation tasks (e.g. word concatenation). However, not all reasoning tasks are easily expressible as code, e.g. tasks involving commonsense reasoning, moral decision-making, and sarcasm understanding. Our goal is to extend an LM's program synthesis skills to such tasks and evaluate the results via pseudo-programs, namely Python programs where some leaf function calls are left undefined. To that end, we propose, Code Generation and Emulated EXecution (CoGEX). CoGEX works by (1) training LMs to generate their own pseudo-programs, (2) teaching them to emulate their generated program's execution, including those leaf functions, allowing the LM's knowledge to fill in the execution gaps; and (3) using them to search over many programs to find an optimal one. To adapt the CoGEX model to a new task, we introduce a method for performing program search to find a single program whose pseudo-execution yields optimal performance when applied to all the instances of a given dataset. We show that our approach yields large improvements compared to standard in-context learning approaches on a battery of tasks, both algorithmic and soft reasoning. This result thus demonstrates that code synthesis can be applied to a much broader class of problems than previously considered. Our released dataset, fine-tuned models, and implementation can be found at \url{https://github.com/nweir127/CoGEX}.
翻訳日:2024-05-30 11:33:46 公開日:2024-05-28
# SpinQuant: 学習回転によるLLM量子化

SpinQuant: LLM quantization with learned rotations ( http://arxiv.org/abs/2405.16406v2 )

ライセンス: Link先を確認
Zechun Liu, Changsheng Zhao, Igor Fedorov, Bilge Soran, Dhruv Choudhary, Raghuraman Krishnamoorthi, Vikas Chandra, Yuandong Tian, Tijmen Blankevoort, (参考訳) 重み、アクティベーション、KVキャッシュに適用されるPTQ(Post-training Quantization)技術は、大規模言語モデル(LLM)のメモリ使用量、レイテンシ、消費電力を大幅に削減するが、外れ値が存在する場合の大きな量子化誤差を引き起こす可能性がある。 近年の研究では、回転活性化または重量行列は、外れ値を取り除き、量子化の恩恵をもたらすことが示唆されている。 本研究では,全精度トランスフォーマーアーキテクチャにおいて同一の出力となる回転パラメータの集合を同定し,いくつかのランダムな回転が,下流ゼロショット推論性能の最大13点差を伴って,他のものよりもはるかに優れた量子化をもたらすことを見出した。 その結果、小さな検証セット上でケイリー最適化を用いて回転行列を最適化(あるいは学習)するSpinQuantを提案する。 重量、アクティベーション、KV-cacheの4ビット量子化により、SpinQuantはゼロショット推論タスクの精度ギャップをLLaMA-2 7Bモデルでわずか2.9ポイントに縮小し、LLM-QATを19.1ポイント、SmoothQuantを25.0ポイント超えた。 SpinQuantは同時に作業のQuaRotを上回り、異常なローテーションを適用してアウトレイラを除去する。 特に、定量化が難しいLLaMA-2 7B/LLaMA-3 8Bモデルでは、SpinQuantはQuaRotと比較してギャップを30.2%/34.1%削減する。

Post-training quantization (PTQ) techniques applied to weights, activations, and the KV cache greatly reduce memory usage, latency, and power consumption of Large Language Models (LLMs), but may lead to large quantization errors when outliers are present. Recent findings suggest that rotating activation or weight matrices helps remove outliers and benefits quantization. In this work, we identify a collection of applicable rotation parameterizations that lead to identical outputs in full-precision Transformer architectures, and find that some random rotations lead to much better quantization than others, with an up to 13 points difference in downstream zero-shot reasoning performance. As a result, we propose SpinQuant that optimizes (or learns) the rotation matrices with Cayley optimization on a small validation set. With 4-bit quantization of weight, activation, and KV-cache, SpinQuant narrows the accuracy gap on zero-shot reasoning tasks with full precision to merely 2.9 points on the LLaMA-2 7B model, surpassing LLM-QAT by 19.1 points and SmoothQuant by 25.0 points. SpinQuant also outperforms concurrent work QuaRot, which applies random rotations to remove outliers. In particular, for LLaMA-2 7B/LLaMA-3 8B models that are hard to quantize, SpinQuant reduces the gap to full precision by 30.2%/34.1% relative to QuaRot.
翻訳日:2024-05-30 11:33:46 公開日:2024-05-28
# POMDPの解法における変圧器の再考

Rethinking Transformers in Solving POMDPs ( http://arxiv.org/abs/2405.17358v2 )

ライセンス: Link先を確認
Chenhao Lu, Ruizhe Shi, Yuyao Liu, Kaizhe Hu, Simon S. Du, Huazhe Xu, (参考訳) 実世界のシナリオにおける強化学習(RL)のような連続的な意思決定アルゴリズムは、必然的に部分観測可能な環境に直面している。 本稿では、部分的に観測可能なマルコフ決定プロセス(POMDP)におけるトランスフォーマー(transformers)という一般的なアーキテクチャの有効性を精査し、その理論的限界を明らかにする。 我々はトランスフォーマーがモデル化に苦慮している正規言語がPOMDPに還元可能であることを確立する。 このことはトランスフォーマーがPOMDP固有の帰納バイアスを学習する上で大きな課題となる。 本稿では、RLのシーケンスモデルとしてのトランスフォーマーの一般的な信念に疑問を呈し、ポイントワイズ・リカレント構造を導入することを提案する。 Deep Linear Recurrent Unit (LRU) は、部分的に観測可能なRLの代替としてよく適しており、Transformerの準最適性能とLRUのかなりの強度を強調した実証的な結果である。

Sequential decision-making algorithms such as reinforcement learning (RL) in real-world scenarios inevitably face environments with partial observability. This paper scrutinizes the effectiveness of a popular architecture, namely Transformers, in Partially Observable Markov Decision Processes (POMDPs) and reveals its theoretical limitations. We establish that regular languages, which Transformers struggle to model, are reducible to POMDPs. This poses a significant challenge for Transformers in learning POMDP-specific inductive biases, due to their lack of inherent recurrence found in other models like RNNs. This paper casts doubt on the prevalent belief in Transformers as sequence models for RL and proposes to introduce a point-wise recurrent structure. The Deep Linear Recurrent Unit (LRU) emerges as a well-suited alternative for Partially Observable RL, with empirical results highlighting the sub-optimal performance of the Transformer and considerable strength of LRU.
翻訳日:2024-05-30 11:23:10 公開日:2024-05-28
# DeTox: モデル編集のための Toxic Subspace Projection

DeTox: Toxic Subspace Projection for Model Editing ( http://arxiv.org/abs/2405.13967v3 )

ライセンス: Link先を確認
Rheeya Uppaal, Apratim Dey, Yiting He, Yiqiao Zhong, Junjie Hu, (参考訳) 近年,大規模言語モデル(LLM)の安全性向上のために,嗜好データに代表される人間の行動に適合する手法として,直接選好最適化(DPO)などのアライメントアルゴリズムが開発されている。 しかし、これらの手法はどちらも計算集約的であり、制御性と透明性が欠如しているため、脱獄や広範囲の使用を阻害する傾向がある。 さらに、これらのチューニングベースの手法は、トレーニングのための大規模な嗜好データを必要とし、ノイズの多い選好データに影響を受けやすい。 本稿では,無調律アライメント(DeTox)を導入し,その有効性を示す。 DeToxはモデルパラメータ空間内の有毒な部分空間を識別し、検出された部分空間を投影することでモデル毒性を低減する、サンプル効率のよいモデル編集手法である。 言語モデルから好みデータ埋め込みを抽出し、これらの埋め込みから有害でない情報を除去することにより、有害な部分空間を同定する。 DeTox は DPO よりもサンプリング効率が高く,さらにノイズの多いデータに対するロバスト性を示す。 最後に、DeTox と DPO の間の理論的および実証的な接続を確立することにより、DeTox が単一の DPO ステップの復号版として解釈可能であることを示す。

Recent alignment algorithms such as direct preference optimization (DPO) have been developed to improve the safety of large language models (LLMs) by training these models to match human behaviors exemplified by preference data. However, these methods are both computationally intensive and lacking in controllability and transparency, making them prone to jailbreaking and inhibiting their widespread use. Furthermore, these tuning-based methods require large-scale preference data for training and are susceptible to noisy preference data. In this paper, we introduce a tuning-free alignment alternative (DeTox) and demonstrate its effectiveness under the use case of toxicity reduction. Grounded on theory from factor analysis, DeTox is a sample-efficient model editing approach that identifies a toxic subspace in the model parameter space and reduces model toxicity by projecting away the detected subspace. The toxic sub-space is identified by extracting preference data embeddings from the language model, and removing non-toxic information from these embeddings. We show that DeTox is more sample-efficient than DPO, further showcasing greater robustness to noisy data. Finally, we establish both theoretical and empirical connections between DeTox and DPO, showing that DeTox can be interpreted as a denoised version of a single DPO step.
翻訳日:2024-05-30 10:56:57 公開日:2024-05-28
# 文脈的ニューラル・レマタイゼーション改善のための簡易関節モデル

A Simple Joint Model for Improved Contextual Neural Lemmatization ( http://arxiv.org/abs/1904.02306v5 )

ライセンス: Link先を確認
Chaitanya Malaviya, Shijie Wu, Ryan Cotterell, (参考訳) 英語の動詞には複数の形がある。 例えば、会話は、文脈によっては、話す、話す、話すようにも見えます。 補題化のNLPタスクは、これらの多様な形式を補題として知られる正準形式にマッピングしようとする。 ユニバーサル依存コーパスから20言語について, 最新の結果が得られる, 補題化と形態的タグ付けのための単純なジョイントニューラルモデルを提案する。 本論文では,トレーニングと復号化に加えて,本モデルについて述べる。 誤り解析は, 共同形態的タグ付けとレムマタイズが, より大規模な形態的複雑性を示す低リソースのレンマタイズや言語に特に有用であることを示している。 コードと事前トレーニングされたモデルは、https://sigmorphon.github.io/sharedtasks/2019/task2/で利用可能だ。

English verbs have multiple forms. For instance, talk may also appear as talks, talked or talking, depending on the context. The NLP task of lemmatization seeks to map these diverse forms back to a canonical one, known as the lemma. We present a simple joint neural model for lemmatization and morphological tagging that achieves state-of-the-art results on 20 languages from the Universal Dependencies corpora. Our paper describes the model in addition to training and decoding procedures. Error analysis indicates that joint morphological tagging and lemmatization is especially helpful in low-resource lemmatization and languages that display a larger degree of morphological complexity. Code and pre-trained models are available at https://sigmorphon.github.io/sharedtasks/2019/task2/.
翻訳日:2024-05-30 05:10:10 公開日:2024-05-28
# 語彙的セマンティック・ギャップを文脈で埋める話者

Speakers Fill Lexical Semantic Gaps with Context ( http://arxiv.org/abs/2010.02172v4 )

ライセンス: Link先を確認
Tiago Pimentel, Rowan Hall Maudslay, Damián Blasi, Ryan Cotterell, (参考訳) 語彙的曖昧さは言語に広く浸透し、経済的な単語の再利用を可能にし、言語をより効率的にする。 しかし、もし曖昧な単語が文脈から曖昧にできない場合、この効率の上昇が言語を明瞭にし、頻繁な誤ったコミュニケーションをもたらす可能性がある。言語を明確かつ効率的に符号化するためには、単語型の語彙的あいまいさは、平均的に、その文脈にどの程度の情報を提供するかと相関するべきであると仮定する。この場合、単語の語彙的あいまいさをその意味のエントロピーとして運用するには、人間のアノテーションを必要とするもの(WordNetを使用)と、そうでないもの(BERTを使用)の2つの方法を提供する。 我々は,6つの高リソース言語において,BERTに基づくあいまいさの推定値とWordNet(例えば$\rho = 0.40$)における単語の同義語数との間に,ピアソンの有意な相関関係があることを示し,これらの評価を検証した。 次に、単語の語彙的曖昧さが文脈的不確実性と負の相関関係にあるという我々の主要な仮説を検証し、我々が分析する18の類型的多様言語全てに有意な相関関係を見出す。 これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。

Lexical ambiguity is widespread in language, allowing for the reuse of economical word forms and therefore making language more efficient. If ambiguous words cannot be disambiguated from context, however, this gain in efficiency might make language less clear -- resulting in frequent miscommunication. For a language to be clear and efficiently encoded, we posit that the lexical ambiguity of a word type should correlate with how much information context provides about it, on average. To investigate whether this is the case, we operationalise the lexical ambiguity of a word as the entropy of meanings it can take, and provide two ways to estimate this -- one which requires human annotation (using WordNet), and one which does not (using BERT), making it readily applicable to a large number of languages. We validate these measures by showing that, on six high-resource languages, there are significant Pearson correlations between our BERT-based estimate of ambiguity and the number of synonyms a word has in WordNet (e.g. $\rho = 0.40$ in English). We then test our main hypothesis -- that a word's lexical ambiguity should negatively correlate with its contextual uncertainty -- and find significant correlations on all 18 typologically diverse languages we analyse. This suggests that, in the presence of ambiguity, speakers compensate by making contexts more informative.
翻訳日:2024-05-30 05:10:10 公開日:2024-05-28
# 構成的処理のための機器変数推定

Instrumental Variable Estimation for Compositional Treatments ( http://arxiv.org/abs/2106.11234v3 )

ライセンス: Link先を確認
Elisabeth Ailer, Christian L. Müller, Niki Kilbertus, (参考訳) 多くの科学的データセットは自然界において構成的である。 重要な生物学的例としては、生態学における種数、単細胞シークエンシングデータ由来の細胞型組成物、およびマイクロバイオーム研究におけるアンプリコン量データがある。 ここでは、構成が原因となる機器変数設定において、構成データに対する因果的視点を提供する。 まず,微生物データ分析における多様性指標などの共通要約統計に因果的意味を寄与しないことを警告し,介入の観点から構成原因の解釈について,実践者の潜在的な落とし穴を明確に述べる。 次に, 構成標本空間の特殊構造を考慮した統計的データ変換と回帰手法を用いた多変量解析手法を提唱, 開発し, 科学的に解釈可能な結果を得た。 合成バイオームデータと実バイオームデータの比較分析では,提案手法の利点と限界が示された。 本分析は, コンポジションデータの文脈において, 有効かつ有意義な原因効果推定のための有用なフレームワークとガイダンスを提供するものであると仮定する。

Many scientific datasets are compositional in nature. Important biological examples include species abundances in ecology, cell-type compositions derived from single-cell sequencing data, and amplicon abundance data in microbiome research. Here, we provide a causal view on compositional data in an instrumental variable setting where the composition acts as the cause. First, we crisply articulate potential pitfalls for practitioners regarding the interpretation of compositional causes from the viewpoint of interventions and warn against attributing causal meaning to common summary statistics such as diversity indices in microbiome data analysis. We then advocate for and develop multivariate methods using statistical data transformations and regression techniques that take the special structure of the compositional sample space into account while still yielding scientifically interpretable results. In a comparative analysis on synthetic and real microbiome data we show the advantages and limitations of our proposal. We posit that our analysis provides a useful framework and guidance for valid and informative cause-effect estimation in the context of compositional data.
翻訳日:2024-05-30 05:05:50 公開日:2024-05-28
# フィンガープリンティングによる画像から画像へ生成する敵対的ネットワーク

Fingerprinting Image-to-Image Generative Adversarial Networks ( http://arxiv.org/abs/2106.11760v4 )

ライセンス: Link先を確認
Guanlin Li, Guowen Xu, Han Qiu, Shangwei Guo, Run Wang, Jiwei Li, Tianwei Zhang, Rongxing Lu, (参考訳) Generative Adversarial Networks (GAN) は様々なアプリケーションシナリオで広く利用されている。 商用のGANの製造には相当な計算資源と人的資源が必要であるため、GANの著作権保護は緊急に必要である。 本稿では,信頼できる第三者に基づく画像間GANの知的財産権(IP)保護のための新しいフィンガープリント手法を提案する。 我々は,従来の指紋認証手法による盗難と堅牢性のボトルネックを突破し,分類モデルをGANに導入した。 具体的には、ターゲットGANと分類器から合成ディープラーニングモデルを革新的に構築する。 次に, この合成モデルから指紋サンプルを生成し, それを分類器に埋め込んで, 効果的な所有権検証を行う。 このスキームは、現代の画像から画像への変換GANを実質的に保護するためにいくつかの具体的な方法論を刺激する。 理論的解析は、これらの手法がIP保護に必要な異なるセキュリティ要件を満たすことを証明している。 また、我々のソリューションが既存の戦略より優れていることを示す広範な実験も行います。

Generative Adversarial Networks (GANs) have been widely used in various application scenarios. Since the production of a commercial GAN requires substantial computational and human resources, the copyright protection of GANs is urgently needed. This paper presents a novel fingerprinting scheme for the Intellectual Property (IP) protection of image-to-image GANs based on a trusted third party. We break through the stealthiness and robustness bottlenecks suffered by previous fingerprinting methods for classification models being naively transferred to GANs. Specifically, we innovatively construct a composite deep learning model from the target GAN and a classifier. Then we generate fingerprint samples from this composite model, and embed them in the classifier for effective ownership verification. This scheme inspires some concrete methodologies to practically protect the modern image-to-image translation GANs. Theoretical analysis proves that these methods can satisfy different security requirements necessary for IP protection. We also conduct extensive experiments to show that our solutions outperform existing strategies.
翻訳日:2024-05-30 05:05:50 公開日:2024-05-28
# クラス増分学習におけるクロスタスク機能の重要性について

On the importance of cross-task features for class-incremental learning ( http://arxiv.org/abs/2106.11930v4 )

ライセンス: Link先を確認
Albin Soutif--Cormerais, Marc Masana, Joost van de Weijer, Bartłomiej Twardowski, (参考訳) クラス増分学習では、限られたリソースを持つエージェントは、以前のタスクからデータにアクセスできないという制約により、分類タスクのシーケンスを学習し、継続的に増加する分類問題を形成する必要がある。 タスクIDを推論時に利用できるタスクインクリメンタル学習との主な違いは、学習者が同時に見ていないクラスを区別するために、クロスタスクの差別を行う必要があることである。 この問題に対処するためのアプローチは多種多様であり、ほとんどは無視できない大きさの外部メモリ(バッファ)を使用する。 本稿では,クロスタスクの特徴の学習を減らし,クラスILの基本的なリプレイ戦略の性能に与える影響について検討する。 また、クラス増分学習のための新しい忘れ方策を定義し、忘れ方も性能低下の主な原因ではないことを確かめる。 実験結果から,クラス増分学習のための将来的なアルゴリズムは,忘れてはならないだけでなく,タスク間の知識伝達やクロスタスク機能の品質向上も目指すべきであることがわかった。 タスクが限られた量のデータを含む場合、これは特に重要である。

In class-incremental learning, an agent with limited resources needs to learn a sequence of classification tasks, forming an ever growing classification problem, with the constraint of not being able to access data from previous tasks. The main difference with task-incremental learning, where a task-ID is available at inference time, is that the learner also needs to perform cross-task discrimination, i.e. distinguish between classes that have not been seen together. Approaches to tackle this problem are numerous and mostly make use of an external memory (buffer) of non-negligible size. In this paper, we ablate the learning of cross-task features and study its influence on the performance of basic replay strategies used for class-IL. We also define a new forgetting measure for class-incremental learning, and see that forgetting is not the principal cause of low performance. Our experimental results show that future algorithms for class-incremental learning should not only prevent forgetting, but also aim to improve the quality of the cross-task features, and the knowledge transfer between tasks. This is especially important when tasks contain limited amount of data.
翻訳日:2024-05-30 05:05:50 公開日:2024-05-28
# ホールダー成長を伴う凸関数最小化のための非接触近点アルゴリズムの複雑さ

Complexity of Inexact Proximal Point Algorithm for minimizing convex functions with Holderian Growth ( http://arxiv.org/abs/2108.04482v6 )

ライセンス: Link先を確認
Andrei Pătraşcu, Paul Irofti, (参考訳) 数十年前、PPA (Proximal Point Algorithm) は抽象演算子理論と数値最適化のコミュニティの両方で長期の魅力を得始めた。 現代の応用においても、研究者たちは近位最小化理論を使って、非滑らか性を克服するスケーラブルなアルゴリズムを設計している。 Fer:91,Ber:82constrained,Ber:89parallel,Tom:11} は PPA の収束挙動と目的関数の正則性の間の密接な関係を確立した。 この写本では、完全かつ不正確なPPAの漸近反復複雑性を導出し、凸関数を$\gamma-$Holderian growth: $\BigO{\log(1/\epsilon)}$($\gamma \in [1,2]$)および$\BigO{1/\epsilon^{\gamma - 2}}$($\gamma > 2$)で最小化する。 特に, 決定論的ノイズの存在下においても, 急激な最小値に対する有限収束と二次成長に対する線形収束という, PPA上のよく知られた結果を回復する。 さらに、各IPPAを反復的に計算するための内部ルーチンとして、単純な近位次法をリカレントに呼び出すと、不正確なPPAを再起動するために、新しい計算複雑性境界が得られる。 数値実験では, 既存の再起動バージョンよりも改善が見られた。

Several decades ago the Proximal Point Algorithm (PPA) started to gain a long-lasting attraction for both abstract operator theory and numerical optimization communities. Even in modern applications, researchers still use proximal minimization theory to design scalable algorithms that overcome nonsmoothness. Remarkable works as \cite{Fer:91,Ber:82constrained,Ber:89parallel,Tom:11} established tight relations between the convergence behaviour of PPA and the regularity of the objective function. In this manuscript we derive nonasymptotic iteration complexity of exact and inexact PPA to minimize convex functions under $\gamma-$Holderian growth: $\BigO{\log(1/\epsilon)}$ (for $\gamma \in [1,2]$) and $\BigO{1/\epsilon^{\gamma - 2}}$ (for $\gamma > 2$). In particular, we recover well-known results on PPA: finite convergence for sharp minima and linear convergence for quadratic growth, even under presence of deterministic noise. Moreover, when a simple Proximal Subgradient Method is recurrently called as an inner routine for computing each IPPA iterate, novel computational complexity bounds are obtained for Restarting Inexact PPA. Our numerical tests show improvements over existing restarting versions of the Subgradient Method.
翻訳日:2024-05-30 05:05:50 公開日:2024-05-28
# 非エルミート量子ウォークと非マルコビアン性--コイン-ポジション相互作用

Non-Hermitian quantum walks and non-Markovianity: the coin-position interaction ( http://arxiv.org/abs/2109.10682v3 )

ライセンス: Link先を確認
Himanshu Badhani, Subhashish Banerjee, C. M. Chandrashekar, (参考訳) $\mathcal{PT}$-対称、$\mathcal{PT}$-アンブローク状態の非エルミート的ハミルトニアンは、ヒルベルト空間の適切な選択の下でユニタリ力学を導くことができる。 ヒルベルト空間は、下層のベクトル空間上のハミルトニアン互換内積写像によって決定され、これは ` `metric operator' によって促進される。 しかし、より伝統的な手法では、進化をオープンシステム力学として扱い、状態は各段階の正規化によって構築される。 本研究では、$\mathcal{PT}$-symmetric Hamiltonianの下で進化する系の還元力学を構成する2つの方法の比較研究を示す。 我々のシステムは、スピンと自由度が2つのサブシステムを形成する1次元量子ウォークである。 2つの手法によるサブシステム間の情報フローを比較する。 計量形式論の下では、サブシステムへの情報バックフローのパワーローの崩壊は、$\mathcal{PT}$-unbrokenから壊れた位相への遷移の明確な兆候を与える。 これは正規化状態法の下での情報バックフローとは違っている。 また、非ハーミティシティモデルが開系力学を開化しても、擬ハーミティシティは計量ヒルベルト空間のサブシステム間の絡み合いを増大させ、従って擬ハーミティシティの場合が量子力学の資源と見なされることを示す。

A $\mathcal{PT}$-symmetric, non-Hermitian Hamiltonian in the $\mathcal{PT}$-unbroken regime can lead to unitary dynamics under the appropriate choice of the Hilbert space. The Hilbert space is determined by a Hamiltonian-compatible inner product map on the underlying vector space, facilitated by a ``metric operator". A more traditional method, however, involves treating the evolution as open system dynamics, and the state is constructed through normalization at each time step. In this work, we present a comparative study of the two methods of constructing the reduced dynamics of a system evolving under a $\mathcal{PT}$-symmetric Hamiltonian. Our system is a one-dimensional quantum walk with the spin and position degrees of freedom forming its two subsystems. We compare the information flow between the subsystems under the two methods. We find that under the metric formalism, a power law decay of the information backflow to the subsystem gives a clear indication of the transition from $\mathcal{PT}$-unbroken to the broken phase. This is unlike the information backflow under the normalized state method. We also note that even though non-Hermiticity models open system dynamics, pseudo-Hermiticity can increase entanglement between the subsystem in the metric Hilbert space, thus indicating that pseudo-Hermiticity cases can be seen as a resource in quantum mechanics.
翻訳日:2024-05-30 05:05:50 公開日:2024-05-28
# ALA:自然界を意識した対光攻撃

ALA: Naturalness-aware Adversarial Lightness Attack ( http://arxiv.org/abs/2201.06070v3 )

ライセンス: Link先を確認
Yihao Huang, Liangru Sun, Qing Guo, Felix Juefei-Xu, Jiayi Zhu, Jincao Feng, Yang Liu, Geguang Pu, (参考訳) ほとんどの研究者は、DNNの脆弱性を特殊な逆の例で明らかにし、修復することで、DNNの堅牢性を高めようとしてきた。 攻撃例の一部にはLpノルムに制限された知覚不能な摂動がある。 しかし、その高周波特性のため、逆転例はデノナイズ法によって防御することができ、物理的世界では実現し難い。 欠陥を避けるために、いくつかの研究は、より堅牢性と実用性を高めるために制限のない攻撃を提案している。 これらの例が通常不自然に見え、警備員に警告できることは残念である。 本稿では,画像の明度を変更することに焦点を当てた,非制限の非制限逆襲攻撃である逆光攻撃(ALA)を提案する。 人間の知覚に欠かせない形状と色は、ほとんど影響を受けない。 攻撃成功率の高い敵例を得るために,画像中の光と日陰の関係の制約のない拡張を提案する。 画像の自然性を高めるため、光の範囲と分布に応じて自然性を考慮した正規化を行う。 ALAの有効性は、異なるタスクのための2つの一般的なデータセット(画像分類のためのImageNetとシーン認識のためのPlaces-365)で検証される。

Most researchers have tried to enhance the robustness of DNNs by revealing and repairing the vulnerability of DNNs with specialized adversarial examples. Parts of the attack examples have imperceptible perturbations restricted by Lp norm. However, due to their high-frequency property, the adversarial examples can be defended by denoising methods and are hard to realize in the physical world. To avoid the defects, some works have proposed unrestricted attacks to gain better robustness and practicality. It is disappointing that these examples usually look unnatural and can alert the guards. In this paper, we propose Adversarial Lightness Attack (ALA), a white-box unrestricted adversarial attack that focuses on modifying the lightness of the images. The shape and color of the samples, which are crucial to human perception, are barely influenced. To obtain adversarial examples with a high attack success rate, we propose unconstrained enhancement in terms of the light and shade relationship in images. To enhance the naturalness of images, we craft the naturalness-aware regularization according to the range and distribution of light. The effectiveness of ALA is verified on two popular datasets for different tasks (i.e., ImageNet for image classification and Places-365 for scene recognition).
翻訳日:2024-05-30 05:05:50 公開日:2024-05-28
# DecisionHoldem:不完全な情報ゲームのためのディバイスポンジェントによる安全な深さ制限問題解決

DecisionHoldem: Safe Depth-Limited Solving With Diverse Opponents for Imperfect-Information Games ( http://arxiv.org/abs/2201.11580v2 )

ライセンス: Link先を確認
Qibin Zhou, Dongdong Bai, Junge Zhang, Fuqing Duan, Kaiqi Huang, (参考訳) 不完全情報ゲーム(英: imperfect-information game)は、非対称な情報を持つゲームの一種である。 人生において、完全情報ゲームよりも一般的である。 ポーカーのような不完全な情報ゲームにおける人工知能(AI)は近年大きく進歩し成功している。 LibratusやDeepstackのような超人的なポーカーAIの大成功は、ポーカー研究に注意を払う研究者を惹きつけている。 しかし、オープンソースコードの欠如は、テキサスホールドエムAIの開発をある程度制限している。 本稿では、対戦者の私的手の範囲を考慮し、戦略の悪用性を低減することで、安全な深度制限付きサブゲーム問題解決が可能な、テキサスの無限界ホールディングスのためのハイレベルAIであるDecisionHoldemを紹介する。 実験結果から、DecisionHoldemは、Slumbot、Deepstack、viz、Openstackのハイレベルな再現を730mbb/h以上、700mbb/hで達成した。 さらに,不完全な情報ゲームにおけるAI開発を促進するために,DecisionHoldemのソースコードとツールをリリースする。

An imperfect-information game is a type of game with asymmetric information. It is more common in life than perfect-information game. Artificial intelligence (AI) in imperfect-information games, such like poker, has made considerable progress and success in recent years. The great success of superhuman poker AI, such as Libratus and Deepstack, attracts researchers to pay attention to poker research. However, the lack of open-source code limits the development of Texas hold'em AI to some extent. This article introduces DecisionHoldem, a high-level AI for heads-up no-limit Texas hold'em with safe depth-limited subgame solving by considering possible ranges of opponent's private hands to reduce the exploitability of the strategy. Experimental results show that DecisionHoldem defeats the strongest openly available agent in heads-up no-limit Texas hold'em poker, namely Slumbot, and a high-level reproduction of Deepstack, viz, Openstack, by more than 730 mbb/h (one-thousandth big blind per round) and 700 mbb/h. Moreover, we release the source codes and tools of DecisionHoldem to promote AI development in imperfect-information games.
翻訳日:2024-05-30 05:05:50 公開日:2024-05-28
# 重回帰学習による軽量超解法を目指して

Towards Lightweight Super-Resolution with Dual Regression Learning ( http://arxiv.org/abs/2207.07929v5 )

ライセンス: Link先を確認
Yong Guo, Mingkui Tan, Zeshuai Deng, Jingdong Wang, Qi Chen, Jiezhang Cao, Yanwu Xu, Jian Chen, (参考訳) ディープニューラルネットワークは、低解像度(LR)画像から高解像度(HR)画像へのマッピングを学習することで、画像超解像(SR)タスクにおいて顕著なパフォーマンスを示した。 しかし、SR問題は一般的に不適切な問題であり、既存の手法にはいくつかの制限がある。 第一に、SRのマッピング空間は、同じLR画像から超解ける多くの異なるHR画像が存在するため、非常に大きい可能性がある。 その結果、そのような大きな空間から有望なSR写像を直接学習することは困難である。 第二に、高い計算コストを持つ非常に大きなモデルを開発することは、しばしば、有望なSR性能を得るために避けられない。 実際には、モデルの冗長性を減らしてコンパクトなモデルを得るためにモデル圧縮技術を用いることができる。 しかし、既存のモデル圧縮手法では、非常に大きなSRマッピング空間のため、冗長なコンポーネントを正確に識別することは困難である。 最初の課題を解決するために、SRマッピングの可能な空間を減らすための二重回帰学習方式を提案する。 具体的には、LR画像からHR画像へのマッピングに加えて、ダウンサンプリングカーネルを推定し、LR画像の再構成を行うために、追加の二重回帰マッピングを学習する。 このように、双対写像は、可能な写像の空間を減らすための制約として機能する。 2つ目の課題に対処するために、チャネルプルーニングに基づく層レベルとチャネルレベルのモデル冗長性を低減するための二重回帰圧縮(DRC)手法を提案する。 具体的には、まず二重回帰損失を最小限に抑えるチャネル数探索法を開発し、各層の冗長性を決定する。 探索されたチャネル番号を考慮に入れれば、チャネルの重要性を評価し、冗長なチャネルを刈り取るために、二重回帰法をさらに活用する。 拡張実験により, 高精度かつ効率的なSRモデルを得る上で, 提案手法の有効性が示された。

Deep neural networks have exhibited remarkable performance in image super-resolution (SR) tasks by learning a mapping from low-resolution (LR) images to high-resolution (HR) images. However, the SR problem is typically an ill-posed problem and existing methods would come with several limitations. First, the possible mapping space of SR can be extremely large since there may exist many different HR images that can be super-resolved from the same LR image. As a result, it is hard to directly learn a promising SR mapping from such a large space. Second, it is often inevitable to develop very large models with extremely high computational cost to yield promising SR performance. In practice, one can use model compression techniques to obtain compact models by reducing model redundancy. Nevertheless, it is hard for existing model compression methods to accurately identify the redundant components due to the extremely large SR mapping space. To alleviate the first challenge, we propose a dual regression learning scheme to reduce the space of possible SR mappings. Specifically, in addition to the mapping from LR to HR images, we learn an additional dual regression mapping to estimate the downsampling kernel and reconstruct LR images. In this way, the dual mapping acts as a constraint to reduce the space of possible mappings. To address the second challenge, we propose a dual regression compression (DRC) method to reduce model redundancy in both layer-level and channel-level based on channel pruning. Specifically, we first develop a channel number search method that minimizes the dual regression loss to determine the redundancy of each layer. Given the searched channel numbers, we further exploit the dual regression manner to evaluate the importance of channels and prune the redundant ones. Extensive experiments show the effectiveness of our method in obtaining accurate and efficient SR models.
翻訳日:2024-05-30 05:05:50 公開日:2024-05-28
# セパレータ・デコーダ構造を持つディープニューラルネットワークを用いた単一チャネル水中音響信号の未知数の同時音源分離

Simultaneous source separation of unknown numbers of single-channel underwater acoustic signals based on deep neural networks with separator-decoder structure ( http://arxiv.org/abs/2207.11749v4 )

ライセンス: Link先を確認
Qinggang Sun, Kejun Wang, (参考訳) 単一チャネル水中音響信号の分離は、実用上重要な課題である。 未知の信号数によるソース分離問題に注目する研究はほとんどなく、システムの性能を評価する方法はまだ明らかになっていない。 本稿では,この2つの問題に対処するために,一定数の出力チャネルを持つ深層学習に基づく同時分離解を提案する。 この解は、目標への出力のアライメントによって引き起こされる置換問題による次元的災害を回避する。 具体的には,セパレータ・デコーダ構造を持つ2段階の学習ベース分離モデルを提案する。 また,対象信号を含まない出力チャネルにおけるミュートチャネルを有する状況に対する分離システムの2つの定量的指標を用いた性能評価手法を提案する。 放射音の混合を模擬した実験により, 提案手法は, 既知信号数と同等の分離性能が得られることを示した。 セパレータ・デコーダ構造を持つ分離モデルは、既知の信号数に対して開発された2つのモデルとして、高い説明性と拡張性を持ち、このフレームワークの最先端性を得るため、競争性能が向上した。

The separation of single-channel underwater acoustic signals is a challenging problem with practical significance. Few existing studies focus on the source separation problem with unknown numbers of signals, and how to evaluate the performance of the systems is not yet clear. In this paper, a deep learning-based simultaneous separating solution with a fixed number of output channels equal to the maximum number of possible targets is proposed to address these two problems. This solution avoids the dimensional disaster caused by the permutation problem induced by the alignment of outputs to targets. Specifically, we propose a two-step learning-based separation model with a separator-decoder structure. A performance evaluation method with two quantitative metrics of the separation system for situations with mute channels in the output channels that do not contain target signals is also proposed. Experiments conducted on simulated mixtures of radiated ship noise show that the proposed solution can achieve similar separation performance to that attained with a known number of signals. The proposed separation model with separator-decoder structure achieved competitive performance as two models developed for known numbers of signals, which is highly explainable and extensible and gets the state of the art under this framework.
翻訳日:2024-05-30 05:05:50 公開日:2024-05-28
# 教師なしコントラスト学習によるインフォーマティブヘルス指標の学習

Learning Informative Health Indicators Through Unsupervised Contrastive Learning ( http://arxiv.org/abs/2208.13288v3 )

ライセンス: Link先を確認
Katharina Rombach, Gabriel Michau, Wilfried Bürzle, Stefan Koller, Olga Fink, (参考訳) 複雑な工業資産の健全性をモニタリングすることは、安全かつ効率的な運用に不可欠である。 経時的に産業資産の健康状態に関する定量的なリアルタイムな洞察を提供する健康指標は、e.gフォールト検出や予後診断のための貴重なツールである。 本研究では, コントラスト学習を用いて健康指標を学習し, 作業時間が劣化のプロキシとなる新しい, 汎用的で教師なしのアプローチを提案する。 本手法は, 機械の摩耗評価と鉄道車輪の故障検出という2つの課題と, 異なる特性の事例から評価する。 提案手法は, ミル機械の摩耗(平均0.97相関)に追従する健康指標を効果的に学習し, 鉄道車両の故障検出に適している(精度88.7%)。 実験は、様々なシステムと健康状態に対するアプローチの汎用性を実証した。

Monitoring the health of complex industrial assets is crucial for safe and efficient operations. Health indicators that provide quantitative real-time insights into the health status of industrial assets over time serve as valuable tools for e.g. fault detection or prognostics. This study proposes a novel, versatile and unsupervised approach to learn health indicators using contrastive learning, where the operational time serves as a proxy for degradation. To highlight its versatility, the approach is evaluated on two tasks and case studies with different characteristics: wear assessment of milling machines and fault detection of railway wheels. Our results show that the proposed methodology effectively learns a health indicator that follows the wear of milling machines (0.97 correlation on average) and is suitable for fault detection in railway wheels (88.7% balanced accuracy). The conducted experiments demonstrate the versatility of the approach for various systems and health conditions.
翻訳日:2024-05-30 05:05:50 公開日:2024-05-28
# 多モード音響共振器における相関周波数雑音

Correlated frequency noise in a multimode acoustic resonator ( http://arxiv.org/abs/2208.13410v5 )

ライセンス: Link先を確認
Nuttamas Tubsrinuan, Jared H. Cole, Per Delsing, Gustav Andersson, (参考訳) 周波数不安定は、量子デバイスにおけるエラーの主な原因である。 本研究では、14個のSAWモードの反射係数を7時間以上同時に測定する表面波共振器(SAW)の周波数変動について検討した。 我々は2つの異なるノイズ特性を報告した。 2レベルシステム(TLS)欠陥との相互作用によって生じるマルチモード周波数ノイズは、デチューニングの増加に伴って減少する有意な相関関係を示す。 この発見は、量子デバイスにおける支配的なノイズ源の1つである寄生TLS挙動の現在の理解と一致する。 TLSによるノイズに加えて、遅い反相関ダイナミクスを持つ強い異常周波数変動を観測する。 これらのノイズバーストは超伝導量子系で観測された宇宙放射の符号に似ている。

Frequency instabilities are a major source of errors in quantum devices. This study investigates frequency fluctuations in a surface acoustic wave (SAW) resonator, where reflection coefficients of 14 SAW modes are measured simultaneously for more than seven hours. We report two distinct noise characteristics. Multimode frequency noise caused by interactions with two-level system (TLS) defects shows significant degrees of correlations that diminish with increased detuning. This finding agrees with the current understanding of the parasitic TLS behavior as one of the dominant noise sources in quantum devices. In addition to the TLS-induced noise, we observe strong anomalous frequency fluctuations with slow, anti-correlated dynamics. These noise bursts resemble signatures of cosmic radiation observed in superconducting quantum systems.
翻訳日:2024-05-30 04:56:06 公開日:2024-05-28
# 強い逆指数としての次数1/2から1のサンドウィッチ付きレニイ分岐の操作的解釈

Operational Interpretation of the Sandwiched Rényi Divergence of Order 1/2 to 1 as Strong Converse Exponents ( http://arxiv.org/abs/2209.00554v5 )

ライセンス: Link先を確認
Ke Li, Yongsheng Yao, (参考訳) サンドイッチ付き R'enyi divergence of order $\alpha\in(\frac{1}{2},1)$ と、その誘導された量子情報量と、量子タスクの正確な強い逆指数を特徴づける操作的解釈を提供する。 特に私たちは a) 最大相対エントロピーの滑らか化 b) 量子プライバシーの増幅 (c) 量子情報の分離。 これら3つのタスクの正確な逆指数を決定する問題は、その性能を忠実度または浄化距離で測定することで解決する。 結果は、次数 $\alpha\in(\frac{1}{2},1)$ のサンドイッチ付き R'enyi 分岐と、その誘導量子 R'enyi 条件エントロピーと量子 R'enyi 相互情報によって与えられる。 R'enyi を R'enyi パラメータで挟んだサンドイッチの正確な操作意味を $\alpha\in(\frac{1}{2},1)$ で見つけるのはこれが初めてである。

We provide the sandwiched R\'enyi divergence of order $\alpha\in(\frac{1}{2},1)$, as well as its induced quantum information quantities, with an operational interpretation in the characterization of the exact strong converse exponents of quantum tasks. Specifically, we consider (a) smoothing of the max-relative entropy, (b) quantum privacy amplification, and (c) quantum information decoupling. We solve the problem of determining the exact strong converse exponents for these three tasks, with the performance being measured by the fidelity or purified distance. The results are given in terms of the sandwiched R\'enyi divergence of order $\alpha\in(\frac{1}{2},1)$, and its induced quantum R\'enyi conditional entropy and quantum R\'enyi mutual information. This is the first time to find the precise operational meaning for the sandwiched R\'enyi divergence with R\'enyi parameter in the interval $\alpha\in(\frac{1}{2},1)$.
翻訳日:2024-05-30 04:56:05 公開日:2024-05-28
# 量子整流を用いた熱回路

Heat-based circuits using quantum rectification ( http://arxiv.org/abs/2209.06215v2 )

ライセンス: Link先を確認
Kasper Poulsen, Nikolaj T. Zinner, (参考訳) 現代のコンピュータ部品の消費電力が増大するにつれて、論理情報を処理するための電力コストの削減により、熱ベースの回路はますます重要になっている。 熱ベース回路では、温度差を用いて回路を介して熱電流を駆動することで計算を行う。 基本成分として高調波発振器と3レベル量子整流器を用い、ダイオードの直列構成、ダイオードの並列配置、ダイオードブリッジ整流器の3つの異なる熱ベース回路について検討した。 標準電子部品の熱に基づくアナログとして使用するために,各回路の必要な機能を示す。 さらに、ダイオードブリッジ整流器は、入力バイアスとは無関係に出力バイアスの一貫した符号を与えるので、入力を整流する。 その結果、熱電流成分を熱ベース回路に結合させることが理論的に可能であることが証明された。 3つの回路は、現在の量子技術プラットフォームを使って実現可能であるべきである。

With increased power consumption of modern computer components, heat-based circuitry has become ever more relevant due to a lower power expense to process logic bits of information. In heat-based circuits, computations are performed by driving heat currents through a circuit using a temperature difference. Utilizing harmonic oscillators and three-level quantum rectifiers as base components, we study three different heat-based circuits: a series configuration of diodes, a parallel configuration of diodes, and a diode bridge rectifier. We demonstrate the required functionality of each circuit for use as heat-based analogues of standard electronic components. Furthermore, the diode bridge rectifier is found to give consistent sign of the output bias independent of the input bias thus rectifying the input. Our results prove the theoretical feasibility of combining heat current components into heat-based circuits. The three circuits should be realizable using several of the current quantum technology platforms.
翻訳日:2024-05-30 04:56:05 公開日:2024-05-28
# 時系列異常検出のためのディープラーニング

Deep Learning for Time Series Anomaly Detection: A Survey ( http://arxiv.org/abs/2211.05244v3 )

ライセンス: Link先を確認
Zahra Zamanzadeh Darban, Geoffrey I. Webb, Shirui Pan, Charu C. Aggarwal, Mahsa Salehi, (参考訳) 時系列異常検出は、製造業や医療を含む幅広い研究分野や応用に応用されている。 異常の存在は、生産障害、システム欠陥、心臓の発散など、新しい事象や予期せぬ出来事を示しうるため、特に興味がある。 時系列の大規模かつ複雑なパターンにより、研究者は異常パターンを検出するための特別な深層学習モデルを開発するようになった。 本調査は,ディープラーニングを用いた構造化および総合的時系列異常検出モデルの提供に焦点を当てる。 異常検出モデルを異なるカテゴリに分割する要因に基づいた分類を提供する。 各カテゴリの基本的な異常検出技術を説明する以外に、利点と限界についても論じる。 さらに,近年の様々なアプリケーション領域にわたる時系列における深部異常検出の例についても紹介する。 最終的に、深い異常検出モデルを採用する際に直面する研究と課題のオープンな問題を要約する。

Time series anomaly detection has applications in a wide range of research fields and applications, including manufacturing and healthcare. The presence of anomalies can indicate novel or unexpected events, such as production faults, system defects, or heart fluttering, and is therefore of particular interest. The large size and complex patterns of time series have led researchers to develop specialised deep learning models for detecting anomalous patterns. This survey focuses on providing structured and comprehensive state-of-the-art time series anomaly detection models through the use of deep learning. It providing a taxonomy based on the factors that divide anomaly detection models into different categories. Aside from describing the basic anomaly detection technique for each category, the advantages and limitations are also discussed. Furthermore, this study includes examples of deep anomaly detection in time series across various application domains in recent years. It finally summarises open issues in research and challenges faced while adopting deep anomaly detection models.
翻訳日:2024-05-30 04:56:05 公開日:2024-05-28
# 結晶のディラック・フォックモデルに対する最小化器の存在

Existence of minimizers for the Dirac-Fock model of crystals ( http://arxiv.org/abs/2212.01142v4 )

ライセンス: Link先を確認
Isabelle Catto, Long Meng, Eric Paturel, Eric Séré, (参考訳) 非相対論的結晶の基底状態に関する数学的および物理学的な文献には、多くの異なるモデルが存在するが、相対論的ケースはあまり研究されておらず、結晶の完全な相対論的処理に関する数学的結果も分かっていない。 本稿では,結晶の平均場相対論的エネルギーを周期密度行列で紹介する。 このモデルは、原子と分子のディラック・フォック基底状態の最近の定義と、結晶の非相対論的ハートリー・フォックモデルの両方から着想を得ている。 細胞1個あたりの電子数があまり多くない場合、基底状態の存在を証明します。

Whereas many different models exist in the mathematical and physics literature for ground states of non-relativistic crystals, the relativistic case has been much less studied and we are not aware of any mathematical result on a fully relativistic treatment of crystals. In this paper, we introduce a mean-field relativistic energy for crystals in terms of periodic density matrices. This model is inspired both from a recent definition of the Dirac-Fock ground state for atoms and molecules, due to one of us, and from the non-relativistic Hartree-Fock model for crystals. We prove the existence of a ground state when the number of electrons per cell is not too large.
翻訳日:2024-05-30 04:56:05 公開日:2024-05-28
# ネットワークの遅延でBitcoinのセキュリティが回復

Refined Bitcoin Security-Latency Under Network Delay ( http://arxiv.org/abs/2212.01372v3 )

ライセンス: Link先を確認
Mustafa Doger, Sennur Ulukus, (参考訳) 我々は,中本コンセンサスに対するセキュリティ-レイテンシ境界,すなわち,チェーン内で$k$-deepになったブロックの安全性について検討する。 我々は,3つの相の正反対鎖と真正鎖の競合を分析することにより,最先端の境界を改良する。 また,[Guo, Ren; AFT 2022] のモデルでは, ターゲットブロックがチェーン内で$k$-deepとなる場合に, 逆鎖の成長の確率分布を求める。 我々は、このレースの特定の特性を分析し、既存の結果よりも厳密な境界を提供するランダムウォークを用いて各フェーズをモデル化する。 これら3つのフェーズを組み合わせることで、小さな$\lambda\Delta$で、ブロックチェーンの新たな上位と下位のバウンダリを提供する。

We study security-latency bounds for Nakamoto consensus, i.e., how secure a block is after it becomes $k$-deep in the chain. We improve the state-of-the-art bounds by analyzing the race between adversarial and honest chains in three different phases. We find the probability distribution of the growth of the adversarial chains under models similar to those in [Guo, Ren; AFT 2022] when a target block becomes $k$-deep in the chain. We analyze certain properties of this race to model each phase with random walks that provide tighter bounds than the existing results. Combining all three phases provides novel upper and lower bounds for blockchains with small $\lambda\Delta$.
翻訳日:2024-05-30 04:56:05 公開日:2024-05-28
# 学生予測分析におけるバイアス軽減のための多層個人化フェデレーション学習

Multi-Layer Personalized Federated Learning for Mitigating Biases in Student Predictive Analytics ( http://arxiv.org/abs/2212.02985v2 )

ライセンス: Link先を確認
Yun-Wei Chu, Seyyedali Hosseinalipour, Elizabeth Tenorio, Laura Cruz, Kerrie Douglas, Andrew Lan, Christopher Brinton, (参考訳) 測定された活動に基づいて成績を予測する学生モデリングの従来の手法は、データ可用性バイアスによる少数/非表現の学生グループに対して正確な結果の提供に苦慮している。 本稿では,学生グループ化基準の異なる層に対する推論精度を,コースごとに,また各コース内での人口統計学的サブグループによって最適化する多層パーソナライズド・フェデレーション・ラーニング(MLPFL)手法を提案する。 提案手法では,個別の学生サブグループのパーソナライズされたモデルは,全データセットにまたがる共通性をモデル化しながら,サブグループの不均一性を考慮したメタ段階的な更新を通じて,分散形式で訓練されたグローバルモデルから導かれる。 提案手法の評価では, モデルトレーニングにおける学生行動の多様性(講義ビデオの訪問, フォーラムへの参加など)を活用する2つの人気下流学生モデリングタスク, 知識追跡, 成果予測のケーススタディを考察する。 3つの実世界のオンラインコースデータセットの実験は、既存の学生モデルベンチマークに対するアプローチによって達成された顕著な改善を示し、平均予測品質が向上し、異なる学生サブグループ間でのばらつきが減少したことが証明された。 学習者の知識状態の埋め込みを視覚的に分析した結果,個人化手法は,学習者のサブグループに集約された活動パターンを抽出し,ベースラインを超えて得られるパフォーマンス向上と一致していることがわかった。

Conventional methods for student modeling, which involve predicting grades based on measured activities, struggle to provide accurate results for minority/underrepresented student groups due to data availability biases. In this paper, we propose a Multi-Layer Personalized Federated Learning (MLPFL) methodology that optimizes inference accuracy over different layers of student grouping criteria, such as by course and by demographic subgroups within each course. In our approach, personalized models for individual student subgroups are derived from a global model, which is trained in a distributed fashion via meta-gradient updates that account for subgroup heterogeneity while preserving modeling commonalities that exist across the full dataset. The evaluation of the proposed methodology considers case studies of two popular downstream student modeling tasks, knowledge tracing and outcome prediction, which leverage multiple modalities of student behavior (e.g., visits to lecture videos and participation on forums) in model training. Experiments on three real-world online course datasets show significant improvements achieved by our approach over existing student modeling benchmarks, as evidenced by an increased average prediction quality and decreased variance across different student subgroups. Visual analysis of the resulting students' knowledge state embeddings confirm that our personalization methodology extracts activity patterns clustered into different student subgroups, consistent with the performance enhancements we obtain over the baselines.
翻訳日:2024-05-30 04:56:05 公開日:2024-05-28
# PaDPaF : 部分結合型GANによる部分絡み合い

PaDPaF: Partial Disentanglement with Partially-Federated GANs ( http://arxiv.org/abs/2212.03836v2 )

ライセンス: Link先を確認
Abdulla Jasem Almansoori, Samuel Horváth, Martin Takáč, (参考訳) フェデレーション学習は、レコメンデーションシステム、IoT(Internet of Things)、ヘルスケア、自動運転車など、多くの潜在的な現実のアプリケーションで人気のある機械学習パラダイムとなっている。 現在のほとんどのアプリケーションは分類に基づくタスクに重点を置いているが、パーソナライズされた生成モデルの学習はほとんど探索されていないままであり、不均一な設定におけるそれらの利点をよりよく理解する必要がある。 本研究では,グローバルクライアント非依存とローカルクライアント固有の生成モデルを組み合わせた新しいアーキテクチャを提案する。 本稿では,フェデレーションモデルをトレーニングするための標準手法を用いて,クライアント依存のバリエーション(スタイル)から一貫した表現(コンテンツ)を暗黙的に切り離すことにより,プライバシとパーソナライズを実現していることを示す。 このような分解を用いて、パーソナライズされたモデルは、クライアントの所定のスタイルを保ちながら、ローカルに見えないラベルを生成することができ、グローバルコンテンツ機能上で単純な線形分類器をトレーニングすることで、すべてのクライアントのラベルを高精度に予測することができる。 さらに、コンテンツのみを共有することで、データ匿名化のような他の重要なアプリケーションを可能にする。 本研究の成果を概説し,提案手法の理論的動機についても考察した。

Federated learning has become a popular machine learning paradigm with many potential real-life applications, including recommendation systems, the Internet of Things (IoT), healthcare, and self-driving cars. Though most current applications focus on classification-based tasks, learning personalized generative models remains largely unexplored, and their benefits in the heterogeneous setting still need to be better understood. This work proposes a novel architecture combining global client-agnostic and local client-specific generative models. We show that using standard techniques for training federated models, our proposed model achieves privacy and personalization by implicitly disentangling the globally consistent representation (i.e. content) from the client-dependent variations (i.e. style). Using such decomposition, personalized models can generate locally unseen labels while preserving the given style of the client and can predict the labels for all clients with high accuracy by training a simple linear classifier on the global content features. Furthermore, disentanglement enables other essential applications, such as data anonymization, by sharing only the content. Extensive experimental evaluation corroborates our findings, and we also discuss a theoretical motivation for the proposed approach.
翻訳日:2024-05-30 04:56:05 公開日:2024-05-28
# ロバストネスは統計的推定にプライバシーを損なう

Robustness Implies Privacy in Statistical Estimation ( http://arxiv.org/abs/2212.05015v2 )

ライセンス: Link先を確認
Samuel B. Hopkins, Gautam Kamath, Mahbod Majid, Shyam Narayanan, (参考訳) 本研究では,高次元アルゴリズム統計学における対向ロバスト性と差分プライバシーの関係について検討する。 提案手法は, サンプルの複雑さ, 精度, プライバシのトレードオフが最適であるプライベートな推定器を, 平均および共分散推定を含む多種多様な高次元パラメータ推定問題に対して生成できる, プライバシから堅牢性への最初のブラックボックス削減を実現する。 この削減は、いくつかの重要な特殊ケースにおいて多項式時間で実施可能であることを示す。 特に,2乗法に基づく高次元ガウス平均と共分散に対する近似多項式時間ロバスト推定器を用いて,ほぼ最適サンプル-精度-プライバシトレードオフを用いたこれらの問題の多項式時間プライベート推定器を設計する。 また, アルゴリズムは, ほぼ最適に崩壊したサンプルに対して頑健である。

We study the relationship between adversarial robustness and differential privacy in high-dimensional algorithmic statistics. We give the first black-box reduction from privacy to robustness which can produce private estimators with optimal tradeoffs among sample complexity, accuracy, and privacy for a wide range of fundamental high-dimensional parameter estimation problems, including mean and covariance estimation. We show that this reduction can be implemented in polynomial time in some important special cases. In particular, using nearly-optimal polynomial-time robust estimators for the mean and covariance of high-dimensional Gaussians which are based on the Sum-of-Squares method, we design the first polynomial-time private estimators for these problems with nearly-optimal samples-accuracy-privacy tradeoffs. Our algorithms are also robust to a nearly optimal fraction of adversarially-corrupted samples.
翻訳日:2024-05-30 04:56:05 公開日:2024-05-28
# 不均一顔再同定のための相互ランク付け最適化

Mutimodal Ranking Optimization for Heterogeneous Face Re-identification ( http://arxiv.org/abs/2212.05510v2 )

ライセンス: Link先を確認
Hui Hu, Jiawei Zhang, Zhen Han, (参考訳) 不均一な顔の再識別、すなわち、不規則な可視光(VIS)と近赤外線(NIR)カメラをまたいだ異種顔のマッチングは、ビデオ監視アプリケーションにおいて重要な問題となっている。 しかし、不均一なNIR-VIS面間の大きな領域差は、顔の再識別性能を劇的に低下させる。 この問題を解決するために,不均一顔再同定のための多モード融合ランキング最適化アルゴリズムを提案する。 まず、NIR-VIS/NIR-NIR/VIS-VISフェースペアを含むマルチモーダルフェースペアをNIR-VISフェース間の相互変換により得るヘテロジニアスフェース変換ネットワークを設計する。 第2に、線形および非線形融合戦略を提案し、マルチモーダルフェースペアの初期ランキングリストを集計し、モーダル相補性に基づいて最適化された再ランクリストを取得する。 実験結果から,提案アルゴリズムは相補性を効果的に利用し,SCfaceデータセット上での相対的手法よりも優れていることがわかった。

Heterogeneous face re-identification, namely matching heterogeneous faces across disjoint visible light (VIS) and near-infrared (NIR) cameras, has become an important problem in video surveillance application. However, the large domain discrepancy between heterogeneous NIR-VIS faces makes the performance of face re-identification degraded dramatically. To solve this problem, a multimodal fusion ranking optimization algorithm for heterogeneous face re-identification is proposed in this paper. Firstly, we design a heterogeneous face translation network to obtain multimodal face pairs, including NIR-VIS/NIR-NIR/VIS-VIS face pairs, through mutual transformation between NIR-VIS faces. Secondly, we propose linear and non-linear fusion strategies to aggregate initial ranking lists of multimodal face pairs and acquire the optimized re-ranked list based on modal complementarity. The experimental results show that the proposed multimodal fusion ranking optimization algorithm can effectively utilize the complementarity and outperforms some relative methods on the SCface dataset.
翻訳日:2024-05-30 04:56:05 公開日:2024-05-28
# 変分ベイズ量子気象学のための1軸ツイストの最適化

Optimizing one-axis twists for variational Bayesian quantum metrology ( http://arxiv.org/abs/2212.12461v3 )

ライセンス: Link先を確認
Tyler G. Thurtell, Akimasa Miyake, (参考訳) 量子力学と感覚は、ある量子状態やチャネルの未知のパラメータを1軸のツイストやその他の量子資源によって生成されるスピンスクイーズなどの絡み合いを用いて推定する際の利点を求める。 特に、量子ビット位相推定(回転センシング)は、電場センシング、磁気メソメトリー、原子時計、ジャイロスコープへの応用において、ユビキタスな問題として現れる。 位相推定問題にベイズ形式を適用し、位相の値に関する限られた初期知識を考慮し、変分距離論を定式化し、状態準備(または符号化)および測定(または復号)手順をパラメータ化量子回路として扱う。 各種パラメトリケートプロトコルの有効性だけでなく,空間的相関ノイズなどの複雑なノイズの影響に対するロバスト性も理解することが重要である。 まず、任意軸ツイストアンサーゼと呼ばれる新しいパラメタライズド符号化および復号化プロトコルを提案し、目標推定誤差を達成するのに必要な1軸ツイストの数を大幅に削減できることを示す。 さらに,これらの戦略に付随する推定誤差は,事前情報に制限がある未探索の制度においても,古典的(あるいは非ツイスト的)プロトコルよりも高速に,システムサイズで減少することを示した。 最後に, 多項式サイズのテンソルネットワークアルゴリズムを用いて, 群スピンの対称部分空間を超えて, 実測距離を数値的に解析し, 任意の軸のツイストアンサーゼに対して, 数個の1軸のツイストと, 実質的に関連する雑音レベルに対する全ツイスト角の小さい量子的優位性が持続することを示した。

Quantum metrology and sensing seek advantage in estimating an unknown parameter of some quantum state or channel, using entanglement such as spin squeezing produced by one-axis twists or other quantum resources. In particular, qubit phase estimation, or rotation sensing, appears as a ubiquitous problem with applications to electric field sensing, magnetometry, atomic clocks, and gyroscopes. By adopting the Bayesian formalism to the phase estimation problem to account for limited initial knowledge about the value of the phase, we formulate variational metrology and treat the state preparation (or encoding) and measurement (or decoding) procedures as parameterized quantum circuits. It is important to understand how effective various parametrized protocols are as well as how robust they are to the effects of complex noise such as spatially correlated noise. First, we propose a new family of parametrized encoding and decoding protocols called arbitrary-axis twist ansatzes, and show that it can lead to a substantial reduction in the number of one-axis twists needed to achieve a target estimation error. Furthermore, we demonstrate that the estimation error associated with these strategies decreases with system size in a faster manner than classical (or no-twists) protocols, even in the less-explored regimes where the prior information is limited. Last, using a polynomial-size tensor network algorithm, we numerically analyze practical variational metrology beyond the symmetric subspace of a collective spin, and find that quantum advantage persists for the arbitrary-axis twist ansatzes with a few one-axis twists and smaller total twisting angles for practically relevant noise levels.
翻訳日:2024-05-30 04:56:05 公開日:2024-05-28
# 部分的モビライゼーション:ロシアメディアアウトレットとテレグラム間の多言語情報フローの追跡

Partial Mobilization: Tracking Multilingual Information Flows Amongst Russian Media Outlets and Telegram ( http://arxiv.org/abs/2301.10856v5 )

ライセンス: Link先を確認
Hans W. A. Hanley, Zakir Durumeric, (参考訳) ウクライナ侵攻後のロシアのオンラインメディアからの偽情報やプロパガンダを受け、ロシア・トゥデイやスプートニク・ニュースといったロシアのメディアはヨーロッパ全土で禁止された。 視聴者シップを維持するために、これらのロシアのメディアの多くは、Telegramのようなメッセージングサービスでコンテンツを強く宣伝し始めた。 本研究では、2022年を通して、ロシアのメディア16社が732のTelegramチャンネルとどのように対話し、利用したかを検討する。 基礎モデルMPNet,DP-meansクラスタリング,Hawkesプロセスを活用することで,ニュースサイトとTelegramチャンネル間での物語の拡散を追跡できる。 我々は、ニュースメディアがTelegramを通じて既存の物語を広めるだけでなく、メッセージプラットフォームから資料を発信していることを示す。 例えば、我々の研究のウェブサイト全体では、2.3%(ura.news)から26.7%(ukraina.ru)までの記事がTelegram上での活動から生まれたり反したりした内容について論じている。 最後に、個々のトピックの拡散を追跡することで、ロシアのメディアエコシステム内でニュースメディアやTelegramチャンネルがコンテンツを拡散する速度を測定し、ura.newsや@genshabなどのTelegramチャンネルがコンテンツを拡散するのに最も効果的であることを示す。

In response to disinformation and propaganda from Russian online media following the invasion of Ukraine, Russian media outlets such as Russia Today and Sputnik News were banned throughout Europe. To maintain viewership, many of these Russian outlets began to heavily promote their content on messaging services like Telegram. In this work, we study how 16 Russian media outlets interacted with and utilized 732 Telegram channels throughout 2022. Leveraging the foundational model MPNet, DP-means clustering, and Hawkes processes, we trace how narratives spread between news sites and Telegram channels. We show that news outlets not only propagate existing narratives through Telegram but that they source material from the messaging platform. For example, across the websites in our study, between 2.3% (ura.news) and 26.7% (ukraina.ru) of articles discussed content that originated/resulted from activity on Telegram. Finally, tracking the spread of individual topics, we measure the rate at which news outlets and Telegram channels disseminate content within the Russian media ecosystem, finding that websites like ura.news and Telegram channels such as @genshab are the most effective at disseminating their content.
翻訳日:2024-05-30 04:56:05 公開日:2024-05-28
# 密度-ソフトマックス:分布シフト下における不確かさ推定とロバストネスの効率的なテスト時間モデル

Density-Softmax: Efficient Test-time Model for Uncertainty Estimation and Robustness under Distribution Shifts ( http://arxiv.org/abs/2302.06495v3 )

ライセンス: Link先を確認
Ha Manh Bui, Anqi Liu, (参考訳) サンプリングに基づく手法、例えばDeep EnsemblesやBayesian Neural Netsは、不確実性推定とロバストな一般化の質を改善するための有望なアプローチとなっている。 しかし、それらは大規模なモデルサイズとテスト時のレイテンシに悩まされ、低リソースデバイスやリアルタイムアプリケーションに必要なスケーラビリティが制限される。 これらの問題を解くために,リプシッツ制約特徴抽出器上に構築された密度関数とソフトマックス層を組み合わせることで,サンプリング不要な決定論フレームワークであるdentity-Softmaxを提案する。 理論的には、我々のモデルはミニマックス不確実性リスクの解であり、特徴空間上では距離を意識していることを示し、分散シフトの際の標準ソフトマックスの過度な信頼度を低減する。 実験的に,本手法は不確実性とロバスト性の観点から最先端技術と競合する結果が得られる一方で,モデルパラメータの数が少なく,テスト時のレイテンシも低い。

Sampling-based methods, e.g., Deep Ensembles and Bayesian Neural Nets have become promising approaches to improve the quality of uncertainty estimation and robust generalization. However, they suffer from a large model size and high latency at test-time, which limits the scalability needed for low-resource devices and real-time applications. To resolve these computational issues, we propose Density-Softmax, a sampling-free deterministic framework via combining a density function built on a Lipschitz-constrained feature extractor with the softmax layer. Theoretically, we show that our model is the solution of minimax uncertainty risk and is distance-aware on feature space, thus reducing the over-confidence of the standard softmax under distribution shifts. Empirically, our method enjoys competitive results with state-of-the-art techniques in terms of uncertainty and robustness, while having a lower number of model parameters and a lower latency at test-time.
翻訳日:2024-05-30 04:56:05 公開日:2024-05-28
# 混合半教師付き一般線形回帰と深層学習・補間への応用

Mixed Semi-Supervised Generalized-Linear-Regression with applications to Deep-Learning and Interpolators ( http://arxiv.org/abs/2302.09526v3 )

ライセンス: Link先を確認
Oren Yuval, Saharon Rosset, (参考訳) 回帰タスクにおける教師あり学習の予測性能を向上させる半教師あり学習法(SSL)を設計するためにラベルなしデータを使用する手法を提案する。 主な考え方は、ラベルなしデータを統合するための異なるメカニズムを設計し、ラベルなしデータに与えられる重みを制御する混合パラメータ$\alpha$を含めることである。 一般化線形モデル(GLM)およびモデルの線形補間器クラスに着目し、異なる混合機構の特性を分析し、全ての場合において、予測性能の観点から、ラベルなしデータと任意の非ゼロ混合比$\alpha>0$を統合することは、必然的に有益であることを示す。 さらに、ラベル付きおよびラベルなしデータを手元で使用しながら、SSLの混合が最高の予測性能を提供する場合、最良の混合比$\alpha^*$を推定する厳密なフレームワークを提供する。 提案手法が標準教師付きモデルと比較した場合, 各種設定において, 理論解析を支援する方法として, 広範囲なシミュレーションによって実証的に実証された。 また、実世界の回帰タスクにおいて、ディープニューラルネットワークのようなより複雑なモデルを改善するための方法論(直感的な修正を含む)の適用性を実証する。

We present a methodology for using unlabeled data to design semi supervised learning (SSL) methods that improve the prediction performance of supervised learning for regression tasks. The main idea is to design different mechanisms for integrating the unlabeled data, and include in each of them a mixing parameter $\alpha$, controlling the weight given to the unlabeled data. Focusing on Generalized Linear Models (GLM) and linear interpolators classes of models, we analyze the characteristics of different mixing mechanisms, and prove that in all cases, it is invariably beneficial to integrate the unlabeled data with some nonzero mixing ratio $\alpha>0$, in terms of predictive performance. Moreover, we provide a rigorous framework to estimate the best mixing ratio $\alpha^*$ where mixed SSL delivers the best predictive performance, while using the labeled and unlabeled data on hand. The effectiveness of our methodology in delivering substantial improvement compared to the standard supervised models, in a variety of settings, is demonstrated empirically through extensive simulation, in a manner that supports the theoretical analysis. We also demonstrate the applicability of our methodology (with some intuitive modifications) to improve more complex models, such as deep neural networks, in real-world regression tasks.
翻訳日:2024-05-30 04:46:21 公開日:2024-05-28
# ナイブベイズ・クラシファイアの欠落データ-決定と中毒

Naive Bayes Classifiers over Missing Data: Decision and Poisoning ( http://arxiv.org/abs/2303.04811v2 )

ライセンス: Link先を確認
Song Bian, Xiating Ouyang, Zhiwei Fan, Paraschos Koutris, (参考訳) 我々は、欠落した値を含む可能性のある汚いデータセットに対して、ML分類器の証明可能な堅牢性について検討した。 テストポイントがML分類器にとって確実なのは、分類器がトレーニングされた汚いデータセットのクリーン化バージョン(指数関数的に多い)に関係なく、そのテストポイントについて同じ予測を返した場合である。 本稿では,Naive Bayes Classifiers (NBC) が,未知の値を持つ汚いデータセットよりも優れていることを理論的に示す。 (i)複数の入力テストポイントがすべて汚いデータセット上で確実に堅牢であるかどうかを決定するための効率的な多項式時間アルゴリズムが存在し、 二 クリーンデータセットに欠落した細胞を挿入することにより全ての入出力試験点を確実に不正にすることを目的としたデータ中毒攻撃は、単点試験点に対して多項式時間であるが、複数検点に対してはNP完全である。 大規模な実験により、我々のアルゴリズムは効率的で、既存のベースラインより優れています。

We study the certifiable robustness of ML classifiers on dirty datasets that could contain missing values. A test point is certifiably robust for an ML classifier if the classifier returns the same prediction for that test point, regardless of which cleaned version (among exponentially many) of the dirty dataset the classifier is trained on. In this paper, we show theoretically that for Naive Bayes Classifiers (NBC) over dirty datasets with missing values: (i) there exists an efficient polynomial time algorithm to decide whether multiple input test points are all certifiably robust over a dirty dataset; and (ii) the data poisoning attack, which aims to make all input test points certifiably non-robust by inserting missing cells to the clean dataset, is in polynomial time for single test points but NP-complete for multiple test points. Extensive experiments demonstrate that our algorithms are efficient and outperform existing baselines.
翻訳日:2024-05-30 04:46:21 公開日:2024-05-28
# CHGNN: 半スーパービジョンのコントラストハイパーグラフ学習ネットワーク

CHGNN: A Semi-Supervised Contrastive Hypergraph Learning Network ( http://arxiv.org/abs/2303.06213v2 )

ライセンス: Link先を確認
Yumeng Song, Yu Gu, Tianyi Li, Jianzhong Qi, Zhenghao Liu, Christian S. Jensen, Ge Yu, (参考訳) ハイパーグラフは、ソーシャルネットワークやバイオインフォマティクスなどのアプリケーションで見られるデータオブジェクト間の高次関係をモデル化することができる。 しかし、グラフ畳み込みネットワークをハイパーグラフに拡張するハイパーグラフ学習に関する最近の研究は、ラベルのないデータの特徴から効果的に学習することはできない。 このような学習のために,ラベル付きおよびラベルなしデータから学習するために,自己教師付きコントラスト学習技術を活用したコントラスト型ハイパーグラフニューラルネットワークCHGNNを提案する。 第一に、CHGNNは適応的なハイパーグラフビュー生成器を備えており、これは自動拡張戦略を採用し、最小限のビューの摂動確率分布を学習する。 第二に、CHGNNはハイパーエッジの均一性を考慮し、情報を効果的に融合する改良されたハイパーグラフエンコーダを含んでいる。 第3に、CHGNNは、ビュージェネレータの類似性損失とノード分類損失と、監督信号を注入するハイパーエッジ均質損失とを組み合わせた共同損失機能を備えている。 また、基本およびクロスバリデーションのコントラスト損失が含まれており、コントラスト損失トレーニングの強化に関係している。 9つの実データセットの実験結果から、CHGNNの有効性に関する洞察が得られる。

Hypergraphs can model higher-order relationships among data objects that are found in applications such as social networks and bioinformatics. However, recent studies on hypergraph learning that extend graph convolutional networks to hypergraphs cannot learn effectively from features of unlabeled data. To such learning, we propose a contrastive hypergraph neural network, CHGNN, that exploits self-supervised contrastive learning techniques to learn from labeled and unlabeled data. First, CHGNN includes an adaptive hypergraph view generator that adopts an auto-augmentation strategy and learns a perturbed probability distribution of minimal sufficient views. Second, CHGNN encompasses an improved hypergraph encoder that considers hyperedge homogeneity to fuse information effectively. Third, CHGNN is equipped with a joint loss function that combines a similarity loss for the view generator, a node classification loss, and a hyperedge homogeneity loss to inject supervision signals. It also includes basic and cross-validation contrastive losses, associated with an enhanced contrastive loss training process. Experimental results on nine real datasets offer insight into the effectiveness of CHGNN, showing that it outperforms 13 competitors in terms of classification accuracy consistently.
翻訳日:2024-05-30 04:46:21 公開日:2024-05-28
# SpikeCV: 継続的コンピュータビジョンの時代を開く

SpikeCV: Open a Continuous Computer Vision Era ( http://arxiv.org/abs/2303.11684v2 )

ライセンス: Link先を確認
Yajing Zheng, Jiyuan Zhang, Rui Zhao, Jianhao Ding, Shiyan Chen, Ruiqin Xiong, Zhaofei Yu, Tiejun Huang, (参考訳) SpikeCVはスパイクカメラ用の新しいオープンソースのコンピュータビジョンプラットフォームで、近年急速に発展しているニューロモルフィックな視覚センサーである。 スパイクカメラでは、各画素位置が直接光強度を蓄積し、非同期にスパイクを発射する。 出力されるバイナリスパイクは40,000Hzの周波数に達することができる。 新しい視覚表現として、スパイクシーケンスは時空間完全性が高く、外界の連続的な視覚情報を保存する。 スパイクカメラの低レイテンシと高ダイナミックレンジを活用することで、高画質イメージングや超高速目標検出など、多くのスパイクベースのアルゴリズムが大きな進歩を遂げている。 スパイクビジョンのためのコミュニティエコロジーを構築して、より多くのユーザがスパイクカメラを利用できるようにするために、SpikeCVは、さまざまな超高速シーンデータセット、ハードウェアインターフェース、使いやすいモジュールライブラリを提供する。 SpikeCVはスパイクデータのカプセル化、データセットインターフェースの標準化、ビジョンタスクのモジュール化、挑戦的なシーンのためのリアルタイムアプリケーションに焦点を当てている。 オープンソースのPythonエコシステムの出現により、SpikeCVのモジュールはPythonライブラリとして使用でき、研究者の数値解析のニーズの多くを満たすことができる。 オフラインおよびリアルタイムアプリケーションにおけるSpikeCVの効率性を示す。 プロジェクトリポジトリのアドレスは \url{https://openi.pcl.ac.cn/Cordium/SpikeCV} と \url{https://github.com/Zyj061/SpikeCV

SpikeCV is a new open-source computer vision platform for the spike camera, which is a neuromorphic visual sensor that has developed rapidly in recent years. In the spike camera, each pixel position directly accumulates the light intensity and asynchronously fires spikes. The output binary spikes can reach a frequency of 40,000 Hz. As a new type of visual expression, spike sequence has high spatiotemporal completeness and preserves the continuous visual information of the external world. Taking advantage of the low latency and high dynamic range of the spike camera, many spike-based algorithms have made significant progress, such as high-quality imaging and ultra-high-speed target detection. To build up a community ecology for the spike vision to facilitate more users to take advantage of the spike camera, SpikeCV provides a variety of ultra-high-speed scene datasets, hardware interfaces, and an easy-to-use modules library. SpikeCV focuses on encapsulation for spike data, standardization for dataset interfaces, modularization for vision tasks, and real-time applications for challenging scenes. With the advent of the open-source Python ecosystem, modules of SpikeCV can be used as a Python library to fulfilled most of the numerical analysis needs of researchers. We demonstrate the efficiency of the SpikeCV on offline inference and real-time applications. The project repository address are \url{https://openi.pcl.ac.cn/Cordium/SpikeCV} and \url{https://github.com/Zyj061/SpikeCV
翻訳日:2024-05-30 04:46:21 公開日:2024-05-28
# 分散スパースブロック符号のための因子化器

Factorizers for Distributed Sparse Block Codes ( http://arxiv.org/abs/2303.13957v2 )

ライセンス: Link先を確認
Michael Hersche, Aleksandar Terzic, Geethan Karunaratne, Jovin Langenegger, Angéline Pouget, Giovanni Cherubini, Luca Benini, Abu Sebastian, Abbas Rahimi, (参考訳) 分散スパースブロック符号(SBC)は、固定幅ベクトルを用いてシンボルデータ構造を符号化し、操作するためのコンパクトな表現を示す。 しかし、大きな課題の1つは、データ構造の分散表現を、可能なすべての組み合わせを探索することなく構成要素に切り離し、あるいは分解することである。 現代のニューラルネットワークがクエリSBCsベクトルを生成するために行った知覚的不確実性や近似のため、SBCsベクトルがノイズが多いと、この分解はより困難になる。 これらの課題に対処するために,我々はまず,GSBCと呼ばれるより柔軟で一般化されたSBCを分解する高速かつ高精度な手法を提案する。 我々の反復分解器は、しきい値に基づく非線形活性化、条件付きランダムサンプリング、および$\ell_\infty$-based similarity metricを導入している。 第二に,Deep Convolutional Neural Network (CNN) を用いて生成したノイズの多い積ベクトルによってクエリされた場合,その精度が向上する。 これにより、CNNの巨大な完全連結層(FCL)を置き換えることができる。$C$のトレーニング可能なクラスベクトルや属性の組み合わせは、F$-factorコードブックを持つ因子によって暗黙的に表現され、それぞれ$\sqrt[\leftroot{-2}\uproot{2}F]{C}$の固定コードベクタで表現できる。 本稿では,CNNの分類層と新たな損失関数を柔軟に統合する手法を提案する。 この統合により、畳み込み層はノイズの多い積ベクトルを生成できるので、ファクターはデコードでき、デコードされた因子は下流のタスクに基づいて異なる解釈をすることができる。 CIFAR-100, ImageNet-1K, RAVENデータセット上での4つの深層CNNアーキテクチャの実現可能性を示す。 あらゆるユースケースにおいて、パラメータと操作の数はFCLと比較して顕著に減少する。

Distributed sparse block codes (SBCs) exhibit compact representations for encoding and manipulating symbolic data structures using fixed-width vectors. One major challenge however is to disentangle, or factorize, the distributed representation of data structures into their constituent elements without having to search through all possible combinations. This factorization becomes more challenging when SBCs vectors are noisy due to perceptual uncertainty and approximations made by modern neural networks to generate the query SBCs vectors. To address these challenges, we first propose a fast and highly accurate method for factorizing a more flexible and hence generalized form of SBCs, dubbed GSBCs. Our iterative factorizer introduces a threshold-based nonlinear activation, conditional random sampling, and an $\ell_\infty$-based similarity metric. Secondly, the proposed factorizer maintains a high accuracy when queried by noisy product vectors generated using deep convolutional neural networks (CNNs). This facilitates its application in replacing the large fully connected layer (FCL) in CNNs, whereby $C$ trainable class vectors, or attribute combinations, can be implicitly represented by our factorizer having $F$-factor codebooks, each with $\sqrt[\leftroot{-2}\uproot{2}F]{C}$ fixed codevectors. We provide a methodology to flexibly integrate our factorizer in the classification layer of CNNs with a novel loss function. With this integration, the convolutional layers can generate a noisy product vector that our factorizer can still decode, whereby the decoded factors can have different interpretations based on downstream tasks. We demonstrate the feasibility of our method on four deep CNN architectures over CIFAR-100, ImageNet-1K, and RAVEN datasets. In all use cases, the number of parameters and operations are notably reduced compared to the FCL.
翻訳日:2024-05-30 04:46:21 公開日:2024-05-28
# 不確実性誘導型次ベストビュー最適化を用いたアクティブインプリシトオブジェクト再構成

Active Implicit Object Reconstruction using Uncertainty-guided Next-Best-View Optimization ( http://arxiv.org/abs/2303.16739v4 )

ライセンス: Link先を確認
Dongyu Yan, Jianheng Liu, Fengyu Quan, Haoyao Chen, Mengmeng Fu, (参考訳) オブジェクト再構築時のセンサビューのアクティブな計画は、自律移動ロボットにとって不可欠である。 有効な方法は、精度と効率のバランスをとれるべきである。 本稿では,新たな暗黙表現とアクティブな再構築タスクをシームレスに統合する手法を提案する。 私たちは幾何学的プロキシとして暗黙の占有領域を構築します。 トレーニング中、事前のオブジェクトバウンディングボックスを補助情報として利用し、クリーンで詳細な再構築を生成する。 ビューの不確実性を評価するために,再構成された占有確率場から直接エントロピーを抽出するサンプリングベースアプローチを,ビュー情報ゲインの尺度として採用した。 これにより、さらなる不確実性マップや学習の必要性がなくなる。 有限個の候補の集合におけるビューの不確実性を比較する従来の方法とは異なり、連続多様体上の次のベストビュー(NBV)を求める。 暗黙的表現の微分可能性を活用することで、NBVは勾配降下を用いたビューの不確実性を最大化することにより、直接最適化することができる。 これは異なるシナリオに対するメソッドの適応性を著しく向上させる。 シミュレーションおよび実世界の実験により,本手法はアクティブな再構築作業におけるビュープランニングの精度と効率を効果的に向上することを示した。 提案されたシステムはhttps://github.com/HITSZ-NRSL/ActiveImplicitRecon.gitでオープンソース化される。

Actively planning sensor views during object reconstruction is crucial for autonomous mobile robots. An effective method should be able to strike a balance between accuracy and efficiency. In this paper, we propose a seamless integration of the emerging implicit representation with the active reconstruction task. We build an implicit occupancy field as our geometry proxy. While training, the prior object bounding box is utilized as auxiliary information to generate clean and detailed reconstructions. To evaluate view uncertainty, we employ a sampling-based approach that directly extracts entropy from the reconstructed occupancy probability field as our measure of view information gain. This eliminates the need for additional uncertainty maps or learning. Unlike previous methods that compare view uncertainty within a finite set of candidates, we aim to find the next-best-view (NBV) on a continuous manifold. Leveraging the differentiability of the implicit representation, the NBV can be optimized directly by maximizing the view uncertainty using gradient descent. It significantly enhances the method's adaptability to different scenarios. Simulation and real-world experiments demonstrate that our approach effectively improves reconstruction accuracy and efficiency of view planning in active reconstruction tasks. The proposed system will open source at https://github.com/HITSZ-NRSL/ActiveImplicitRecon.git.
翻訳日:2024-05-30 04:46:21 公開日:2024-05-28
# Med-Tuning: 医療用ボリュームセグメンテーションのためのパラメータ効率の良いチューニングフレームワーク

Med-Tuning: A New Parameter-Efficient Tuning Framework for Medical Volumetric Segmentation ( http://arxiv.org/abs/2304.10880v4 )

ライセンス: Link先を確認
Jiachen Shen, Wenxuan Wang, Chen Chen, Jianbo Jiao, Jing Liu, Yan Zhang, Shanshan Song, Jiangyun Li, (参考訳) 医用ボリュームセグメンテーションのための深層学習に基づく手法のモデル性能を高めるため、FT(pre-training then fine-tuning)パラダイムが広く採用されている。 しかし、従来のフルFTは高い計算コストとメモリコストを発生させる。 このように、医療用ボリュームセグメンテーションタスクのための微調整済みモデルを、効果的かつパラメータ効率の両面で重要視している。 本稿では,医療用ボリュームセグメンテーションタスクのためのパラメータ効率チューニング(PET)を実現するためのMed-Tuningという新しいフレームワークと,タスク固有の特徴抽出のためのMed-Adapterという効率的なプラグイン・アンド・プレイモジュールを提案する。 調整パラメータが少なかったため,本フレームワークは,自然画像上で事前学習したセグメンテーション作業における2次元ベースラインの精度を向上させる。 3つのベンチマークデータセット(CTおよびMRIモダリティ)の大規模な実験により,本手法は従来のPET法よりも容積セグメンテーションタスクにおいて良好な結果が得られることが示された。 完全なFTと比較して、Med-Tuningは細調整されたモデルのパラメータを最大4倍に減らし、セグメンテーション性能も向上した。 プロジェクトのWebページは \url{https://rubics-xuan.github.io/Med-Tuning/} にある。

The "pre-training then fine-tuning (FT)" paradigm is widely adopted to boost the model performance of deep learning-based methods for medical volumetric segmentation. However, conventional full FT incurs high computational and memory costs. Thus, it is of increasing importance to fine-tune pre-trained models for medical volumetric segmentation tasks in a both effective and parameter-efficient manner. In this paper, we introduce a new framework named Med-Tuning to realize parameter-efficient tuning (PET) for medical volumetric segmentation task and an efficient plug-and-play module named Med-Adapter for task-specific feature extraction. With a small number of tuned parameters, our framework enhances the 2D baselines's precision on segmentation tasks, which are pre-trained on natural images. Extensive experiments on three benchmark datasets (CT and MRI modalities) show that our method achieves better results than previous PET methods on volumetric segmentation tasks. Compared to full FT, Med-Tuning reduces the fine-tuned model parameters by up to 4x, with even better segmentation performance. Our project webpage is at \url{https://rubics-xuan.github.io/Med-Tuning/}.
翻訳日:2024-05-30 04:46:21 公開日:2024-05-28
# 忠実度に基づく滑らかなMin-Relative Entropy:特性と応用

Fidelity-Based Smooth Min-Relative Entropy: Properties and Applications ( http://arxiv.org/abs/2305.05859v2 )

ライセンス: Link先を確認
Theshani Nuradha, Mark M. Wilde, (参考訳) 忠実度に基づく滑らかなミン相対エントロピー(英: smooth min-relative entropy)は、熱力学やコヒーレンスといった資源理論を含む、以前の量子情報の研究において様々な文脈で現れた微分可能性尺度である。 ここでは、この量について包括的に研究する。 まず、データ処理の不等式を含むいくつかの基本的な性質を満たすことを証明する。 また,忠実度に基づくスムーズなミン相対エントロピーと,スムーズなミン相対エントロピーとスムーズなサンドイッチされたR'enyi相対エントロピーを含む広く用いられている情報理論量との間には,サンドイッチされたR'enyi相対エントロピーとスムーズな最大相対エントロピーが特別な場合である。 その後、これらの接続を用いて、忠実性に基づく滑らかな min-相対エントロピーとすべての滑らかなサンドイッチされた R'enyi 相対エントロピーの2次漸近性を確立し、第一次項が量子相対エントロピーであり、第二次項が量子相対エントロピー分散を伴うことを発見した。 また, 得られた特性を利用して, 対象状態が混合された一般資源理論において, 忠実度に基づく滑らかな min-相対エントロピーが, 操作タスクに対して一発のバウンダリを与えることを示す。 上記の観測は、蒸留可能なランダム性に関する上界の2階展開と、特定の古典量子状態の蒸留可能なランダム性の正確な2階漸近をもたらす。 最後に、滑らかな最大相対エントロピーと滑らかな条件付きmin-エントロピーのための半定値プログラムと、忠実度に基づく滑らかなmin-相対エントロピーのための双線型プログラムを構築し、このプログラムを用いて、最後のものから最初のものへの有界性について検討する。

The fidelity-based smooth min-relative entropy is a distinguishability measure that has appeared in a variety of contexts in prior work on quantum information, including resource theories like thermodynamics and coherence. Here we provide a comprehensive study of this quantity. First we prove that it satisfies several basic properties, including the data-processing inequality. We also establish connections between the fidelity-based smooth min-relative entropy and other widely used information-theoretic quantities, including smooth min-relative entropy and smooth sandwiched R\'enyi relative entropy, of which the sandwiched R\'enyi relative entropy and smooth max-relative entropy are special cases. After that, we use these connections to establish the second-order asymptotics of the fidelity-based smooth min-relative entropy and all smooth sandwiched R\'enyi relative entropies, finding that the first-order term is the quantum relative entropy and the second-order term involves the quantum relative entropy variance. Utilizing the properties derived, we also show how the fidelity-based smooth min-relative entropy provides one-shot bounds for operational tasks in general resource theories in which the target state is mixed, with a particular example being randomness distillation. The above observations then lead to second-order expansions of the upper bounds on distillable randomness, as well as the precise second-order asymptotics of the distillable randomness of particular classical-quantum states. Finally, we establish semi-definite programs for smooth max-relative entropy and smooth conditional min-entropy, as well as a bilinear program for the fidelity-based smooth min-relative entropy, which we subsequently use to explore the tightness of a bound relating the last to the first.
翻訳日:2024-05-30 04:46:21 公開日:2024-05-28
# AIを利用したコード生成ツールにおける信頼のための調査と設計

Investigating and Designing for Trust in AI-powered Code Generation Tools ( http://arxiv.org/abs/2305.11248v2 )

ライセンス: Link先を確認
Ruotong Wang, Ruijia Cheng, Denae Ford, Thomas Zimmermann, (参考訳) GitHub CopilotのようなAI駆動のコード生成ツールが普及するにつれて、ソフトウェア開発者がAIツールを信頼していることを理解することが、ツールの採用と責任ある使用の鍵となる。 しかし、開発者がAIで信頼を構築する方法や、生成するAIシステムのインターフェースを設計して、適切なレベルの信頼を促進する方法についてはほとんど分かっていません。 本稿では,2段階の質的調査の結果について述べる。 私たちはまず17人の開発者にインタビューを行い、AIコード生成ツールを適切に信頼する上での課題を理解しました。 適切な期待の構築、AIツールの設定、AI提案の検証など、主な3つの課題を取り上げました。 これらの課題に対処するため、我々は第2段階の設計調査を行い、開発者の信頼構築プロセスを支援する設計概念を探求した。 1)AIパフォーマンスのコミュニケーションにより、ユーザーは適切な期待を達成できる。 2) ユーザが好みを設定して調整することでAIを設定できるようにし、 3)AI提案の評価を支援するためのモデルメカニズムの指標を提供する。 これらの設計概念が、AIによるコード生成ツールへの適切な信頼を構築するのにどのように役立つか、そして設計における潜在的なリスクについて、開発者のフィードバックを集めた。 これらの結果から,AIを利用したコード生成ツールの信頼性設計に関する設計勧告が提案されている。

As AI-powered code generation tools such as GitHub Copilot become popular, it is crucial to understand software developers' trust in AI tools -- a key factor for tool adoption and responsible usage. However, we know little about how developers build trust with AI, nor do we understand how to design the interface of generative AI systems to facilitate their appropriate levels of trust. In this paper, we describe findings from a two-stage qualitative investigation. We first interviewed 17 developers to contextualize their notions of trust and understand their challenges in building appropriate trust in AI code generation tools. We surfaced three main challenges -- including building appropriate expectations, configuring AI tools, and validating AI suggestions. To address these challenges, we conducted a design probe study in the second stage to explore design concepts that support developers' trust-building process by 1) communicating AI performance to help users set proper expectations, 2) allowing users to configure AI by setting and adjusting preferences, and 3) offering indicators of model mechanism to support evaluation of AI suggestions. We gathered developers' feedback on how these design concepts can help them build appropriate trust in AI-powered code generation tools, as well as potential risks in design. These findings inform our proposed design recommendations on how to design for trust in AI-powered code generation tools.
翻訳日:2024-05-30 04:46:21 公開日:2024-05-28
# ReFIT: 推論中のリランカからの関連フィードバック

ReFIT: Relevance Feedback from a Reranker during Inference ( http://arxiv.org/abs/2305.11744v2 )

ライセンス: Link先を確認
Revanth Gangi Reddy, Pradeep Dasigi, Md Arafat Sultan, Arman Cohan, Avirup Sil, Heng Ji, Hannaneh Hajishirzi, (参考訳) Retrieve-and-Rerankは、ニューラルネットワーク検索において一般的なフレームワークであり、バイエンコーダネットワークは、最初に定義された候補数(例えば、K=100)を検索し、さらに強力なクロスエンコーダモデルによって再帰する。 リランカは、検索者に比べて改善された候補スコアを得ることが多いが、そのスコープは検索された上位K候補に限られる。 その結果、リランカはRecall@Kで検索性能を改善することができない。 本研究では,リランカを利用してリコールを改善する手法を提案する。 具体的には、推論中のテストインスタンスを考慮し、そのインスタンスのリランカの予測を軽量な更新メカニズムを使用して検索者のクエリ表現に蒸留する。 蒸留損失の目的は、レトリバーの候補スコアを、リランカーが生成したスコアとより緊密に合わせることである。 アルゴリズムは、更新されたクエリベクタを使用して第2の検索ステップを実行する。 本研究では,この手法が様々な検索・参照フレームワークに適用可能であり,複数のドメイン,言語,モダリティ間の検索リコールを大幅に強化することを示す。

Retrieve-and-rerank is a prevalent framework in neural information retrieval, wherein a bi-encoder network initially retrieves a pre-defined number of candidates (e.g., K=100), which are then reranked by a more powerful cross-encoder model. While the reranker often yields improved candidate scores compared to the retriever, its scope is confined to only the top K retrieved candidates. As a result, the reranker cannot improve retrieval performance in terms of Recall@K. In this work, we propose to leverage the reranker to improve recall by making it provide relevance feedback to the retriever at inference time. Specifically, given a test instance during inference, we distill the reranker's predictions for that instance into the retriever's query representation using a lightweight update mechanism. The aim of the distillation loss is to align the retriever's candidate scores more closely with those produced by the reranker. The algorithm then proceeds by executing a second retrieval step using the updated query vector. We empirically demonstrate that this method, applicable to various retrieve-and-rerank frameworks, substantially enhances retrieval recall across multiple domains, languages, and modalities.
翻訳日:2024-05-30 04:46:21 公開日:2024-05-28
# サブスペース構成可能なネットワーク

Subspace-Configurable Networks ( http://arxiv.org/abs/2305.13536v3 )

ライセンス: Link先を確認
Dong Wang, Olga Saukh, Xiaoxi He, Lothar Thiele, (参考訳) エッジデバイスへのディープラーニングモデルのデプロイは増加しているが、知覚されたデータの動的変化に直面した場合、これらのモデルは堅牢性に欠けることが多い。 これはセンサーのドリフトや、特定のセンサー配置や自然に変化する感知条件などの要因によってオフライントレーニングで使用されたものと比較して、データの変動に起因する可能性がある。 したがって、望まれる堅牢性を達成するには、不変アーキテクチャか、データ拡張技術のような特別なトレーニングアプローチのいずれかを活用する必要がある。 あるいは、入力変換はドメインシフト問題として扱われ、デプロイ後のモデル適応によって解決される。 本稿では、パラメータ設定のための最適なネットワークがサブ空間の一部である構成可能なネットワークのパラメータ化部分空間を訓練する。 得られた部分空間は低次元であり、複雑な非可逆変換であっても驚くほど単純な構造を持ち、限られた記憶資源と計算資源が懸かっている場合、サブスペース構成可能なネットワーク(SCN)の極めて高い効率をもたらす。

While the deployment of deep learning models on edge devices is increasing, these models often lack robustness when faced with dynamic changes in sensed data. This can be attributed to sensor drift, or variations in the data compared to what was used during offline training due to factors such as specific sensor placement or naturally changing sensing conditions. Hence, achieving the desired robustness necessitates the utilization of either an invariant architecture or specialized training approaches, like data augmentation techniques. Alternatively, input transformations can be treated as a domain shift problem, and solved by post-deployment model adaptation. In this paper, we train a parameterized subspace of configurable networks, where an optimal network for a particular parameter setting is part of this subspace. The obtained subspace is low-dimensional and has a surprisingly simple structure even for complex, non-invertible transformations of the input, leading to an exceptionally high efficiency of subspace-configurable networks (SCNs) when limited storage and computing resources are at stake.
翻訳日:2024-05-30 04:46:21 公開日:2024-05-28
# SciMON:新奇性に最適化された科学的な吸気装置

SciMON: Scientific Inspiration Machines Optimized for Novelty ( http://arxiv.org/abs/2305.14259v6 )

ライセンス: Link先を確認
Qingyun Wang, Doug Downey, Heng Ji, Tom Hope, (参考訳) 文献に基づく新たな科学的方向を生成するために,ニューラルランゲージモデルを探索し,拡張する。 文献に基づく仮説生成の研究は伝統的に、仮説の表現性を制限する二進的リンク予測に焦点を当ててきた。 この一連の作品は、新規性を最適化することにも焦点をあてていない。 我々は、入力背景コンテキスト(例えば、問題、実験的な設定、目標)としてモデルを使い、文学に根ざした自然言語のアイデアを出力する、新しい設定で劇的な出発点を取ります。 本稿では,過去の科学的論文から「吸入」を抽出し,先行論文と反復的に比較し,十分な新規性が達成されるまでアイデア提案を更新することによって,新規性のために明示的に最適化するモデリングフレームワークであるSciMONについて述べる。 包括的評価の結果,GPT-4は全体的に低い技術深度と新規性を持つアイデアを産み出す傾向にあることがわかった。 我々の研究は、科学文献から生まれた新しいアイデアを生み出す言語モデルの評価と開発に向けた第一歩である。

We explore and enhance the ability of neural language models to generate novel scientific directions grounded in literature. Work on literature-based hypothesis generation has traditionally focused on binary link prediction--severely limiting the expressivity of hypotheses. This line of work also does not focus on optimizing novelty. We take a dramatic departure with a novel setting in which models use as input background contexts (e.g., problems, experimental settings, goals), and output natural language ideas grounded in literature. We present SciMON, a modeling framework that uses retrieval of "inspirations" from past scientific papers, and explicitly optimizes for novelty by iteratively comparing to prior papers and updating idea suggestions until sufficient novelty is achieved. Comprehensive evaluations reveal that GPT-4 tends to generate ideas with overall low technical depth and novelty, while our methods partially mitigate this issue. Our work represents a first step toward evaluating and developing language models that generate new ideas derived from the scientific literature
翻訳日:2024-05-30 04:46:21 公開日:2024-05-28
# ベイジアンサロゲートモデルによるLCM生成テキストの効率的な検出

Efficient Detection of LLM-generated Texts with a Bayesian Surrogate Model ( http://arxiv.org/abs/2305.16617v2 )

ライセンス: Link先を確認
Yibo Miao, Hongcheng Gao, Hao Zhang, Zhijie Deng, (参考訳) 特に大規模言語モデル(LLM)から機械生成テキストを検出することは、その誤用による深刻な社会問題を防止するために重要である。 特定のデータセットに専用の検出器を訓練する手法もあるが、見えないテストデータに一般化するには不十分である。 最近のTectGPTは、期待できる検出性能を示しているが、単一の候補を検出するには、数百の摂動でソースLLMをクエリする必要があるため、重大な非効率な問題に悩まされている。 この論文は、このギャップを埋めることを目的としている。 具体的には,ベイジアンサロゲートモデルを導入し,ベイジアン不確実性に基づいた典型的なサンプルを選択し,典型的なサンプルから他のサンプルへのスコアを補間し,クエリ効率を向上させることを提案する。 実験の結果,提案手法はクエリコストの低い既存手法よりも有意に優れていた。 特に,LLaMAファミリモデルで生成されたテキストを検出する場合,200クエリで検出GPTを2~3クエリで上回る。

The detection of machine-generated text, especially from large language models (LLMs), is crucial in preventing serious social problems resulting from their misuse. Some methods train dedicated detectors on specific datasets but fall short in generalizing to unseen test data, while other zero-shot ones often yield suboptimal performance. Although the recent DetectGPT has shown promising detection performance, it suffers from significant inefficiency issues, as detecting a single candidate requires querying the source LLM with hundreds of its perturbations. This paper aims to bridge this gap. Concretely, we propose to incorporate a Bayesian surrogate model, which allows us to select typical samples based on Bayesian uncertainty and interpolate scores from typical samples to other samples, to improve query efficiency. Empirical results demonstrate that our method significantly outperforms existing approaches under a low query budget. Notably, when detecting the text generated by LLaMA family models, our method with just 2 or 3 queries can outperform DetectGPT with 200 queries.
翻訳日:2024-05-30 04:36:37 公開日:2024-05-28
# プラグイン・パフォーマティブ最適化

Plug-in Performative Optimization ( http://arxiv.org/abs/2305.18728v3 )

ライセンス: Link先を確認
Licong Lin, Tijana Zrnic, (参考訳) 予測が実行された場合、どの予測器をデプロイするかの選択は、将来の観測の分布に影響を与える。 演奏性の下での学習における過大な目標とは、低い‘emph{performative risk}’、すなわち、誘導分布における優れたパフォーマンスを持つ予測子を見つけることである。 バンディットやその他の微分自由法を含むパフォーマンスリスクを最適化する解の族は、パフォーマンスフィードバックのいかなる構造にも依存せず、収束速度が極端に遅くなる。 補完的な解の族は、戦略的分類における最良の応答モデルのようなフィードバックに明示的な \emph{models} を利用する。 しかしながら、これらの比率は、正しいフィードバックモデルに大きく依存しています。 本研究は, 性能予測において, 潜在的に不特定なモデルを用いるための一般的なプロトコルである<emph{plug-in Performanceative optimization}について検討する。 誤特定が過度に過度でない限り、このソリューションはモデルに依存しない戦略よりもはるかに優れていることを示す。 我々の結果は、たとえ不特定であっても、モデルが実際にパフォーマンス設定の学習に役立つという仮説を支持している。

When predictions are performative, the choice of which predictor to deploy influences the distribution of future observations. The overarching goal in learning under performativity is to find a predictor that has low \emph{performative risk}, that is, good performance on its induced distribution. One family of solutions for optimizing the performative risk, including bandits and other derivative-free methods, is agnostic to any structure in the performative feedback, leading to exceedingly slow convergence rates. A complementary family of solutions makes use of explicit \emph{models} for the feedback, such as best-response models in strategic classification, enabling faster rates. However, these rates critically rely on the feedback model being correct. In this work we study a general protocol for making use of possibly misspecified models in performative prediction, called \emph{plug-in performative optimization}. We show this solution can be far superior to model-agnostic strategies, as long as the misspecification is not too extreme. Our results support the hypothesis that models, even if misspecified, can indeed help with learning in performative settings.
翻訳日:2024-05-30 04:36:37 公開日:2024-05-28
# 最小限超過リスク最適化の効率的な確率近似

Efficient Stochastic Approximation of Minimax Excess Risk Optimization ( http://arxiv.org/abs/2306.00026v2 )

ライセンス: Link先を確認
Lijun Zhang, Haomin Bai, Wei-Wei Tu, Ping Yang, Yao Hu, (参考訳) 従来の分散ロバスト最適化(DRO)は、分布の集合に対する最大リスクを最小限にすることを目的としているが、Agarwal と Zhang (2022) は先日、リスクを過剰リスクに置き換える変種を提案した。 DROと比較して、新しい定式化$\unicode{x2013}$minimax excess risk optimization (MERO) は、異なる分布における異種ノイズの影響を抑制する利点がある。 しかし、過剰リスクの選択は、非常に困難なミニマックス最適化問題を引き起こし、現在、経験的MEROの非効率アルゴリズムが存在するのみである。 本稿では,MEROを直接対象とする効率的な確率近似手法を提案する。 具体的には,各分布の最小リスクを推定するために,確率凸最適化の手法を活用し,偏り勾配を持つ確率凸凹最適化(SCCO)問題としてMEROを解く。 バイアスの存在は、SCCOの理論的保証を適用不可能にし、幸運なことに、最小リスクの推定誤差に起因するバイアスが制御下にあることを実証する。 したがって、MEROは依然としてほぼ最適な収束速度で最適化することができる。 さらに,各分布から抽出したサンプルの量が異なる場合の現実的シナリオについて検討し,分布依存収束率をもたらす確率論的アプローチを提案する。

While traditional distributionally robust optimization (DRO) aims to minimize the maximal risk over a set of distributions, Agarwal and Zhang (2022) recently proposed a variant that replaces risk with excess risk. Compared to DRO, the new formulation$\unicode{x2013}$minimax excess risk optimization (MERO) has the advantage of suppressing the effect of heterogeneous noise in different distributions. However, the choice of excess risk leads to a very challenging minimax optimization problem, and currently there exists only an inefficient algorithm for empirical MERO. In this paper, we develop efficient stochastic approximation approaches which directly target MERO. Specifically, we leverage techniques from stochastic convex optimization to estimate the minimal risk of every distribution, and solve MERO as a stochastic convex-concave optimization (SCCO) problem with biased gradients. The presence of bias makes existing theoretical guarantees of SCCO inapplicable, and fortunately, we demonstrate that the bias, caused by the estimation error of the minimal risk, is under-control. Thus, MERO can still be optimized with a nearly optimal convergence rate. Moreover, we investigate a practical scenario where the quantity of samples drawn from each distribution may differ, and propose a stochastic approach that delivers distribution-dependent convergence rates.
翻訳日:2024-05-30 04:36:37 公開日:2024-05-28
# 半監督残差変換器を用いた予算アノテーションを用いた効率的な異常検出

Efficient Anomaly Detection with Budget Annotation Using Semi-Supervised Residual Transformer ( http://arxiv.org/abs/2306.03492v3 )

ライセンス: Link先を確認
Hanxi Li, Jingqi Wu, Hao Chen, Mingwen Wang, Chunhua Shen, (参考訳) 異常検出は、通常、訓練中に通常のサンプルのみが見られ、検出器は飛行中の異常を検出する必要があるため、難しい。 最近提案されたディープラーニングベースのアプローチは、この問題を緩和する可能性があるが、実世界のアプリケーションのための産業レベルの異常検知器を得るには、まだまだ長い道のりがある。 一方、特定のADタスクでは、精度を高めるために、いくつかの異常サンプルを手動でラベル付けする。 しかし、このパフォーマンス向上には相当なアノテーションの努力が費やされているため、多くの実践的なシナリオでは難解である。 この研究では、上記の2つの問題を統一されたフレームワークで解決する。 まず、パッチマッチングベースのADアルゴリズムの成功に触発されて、新しい位置制約パッチマッチングによって生成される残差に対して、スライディング・ビジョン・トランスフォーマーを訓練する。 第二に、従来の画素ワイドセグメンテーション問題をブロックワイド分類問題に投入する。 これにより、スライディング変圧器は、アノテーションの手間をはるかに少なくして、さらに高い精度が得られる。 第3に,ラベル付けコストをさらに削減するために,境界ボックスのみを用いて異常領域をラベル付けすることを提案する。 弱ラベルによる未ラベル領域を、2つの新しいデータ拡張手法を備えた高度にカスタマイズされた半教師付き学習スキームを用いて効果的に活用する。 提案手法は、教師なしシナリオと教師なしシナリオの両方において、すべての評価指標を用いて、最先端のアプローチよりも優れている。 一般的なMVTec-ADデータセットでは、SemiRESTアルゴリズムは、教師なし状態における平均精度(AP)が81.2%、教師付き異常検出のためのAPが84.4%である。 意外なことに、バウンディングボックスベースのセミスーパービジョンでは、SemiRESTはMVTec-AD上で完全な監視(83.8%AP)でSOTAメソッドよりも優れています。

Anomaly Detection is challenging as usually only the normal samples are seen during training and the detector needs to discover anomalies on-the-fly. The recently proposed deep-learning-based approaches could somehow alleviate the problem but there is still a long way to go in obtaining an industrial-class anomaly detector for real-world applications. On the other hand, in some particular AD tasks, a few anomalous samples are labeled manually for achieving higher accuracy. However, this performance gain is at the cost of considerable annotation efforts, which can be intractable in many practical scenarios. In this work, the above two problems are addressed in a unified framework. Firstly, inspired by the success of the patch-matching-based AD algorithms, we train a sliding vision transformer over the residuals generated by a novel position-constrained patch-matching. Secondly, the conventional pixel-wise segmentation problem is cast into a block-wise classification problem. Thus the sliding transformer can attain even higher accuracy with much less annotation labor. Thirdly, to further reduce the labeling cost, we propose to label the anomalous regions using only bounding boxes. The unlabeled regions caused by the weak labels are effectively exploited using a highly-customized semi-supervised learning scheme equipped with two novel data augmentation methods. The proposed method outperforms all the state-of-the-art approaches using all the evaluation metrics in both the unsupervised and supervised scenarios. On the popular MVTec-AD dataset, our SemiREST algorithm obtains the Average Precision (AP) of 81.2% in the unsupervised condition and 84.4% AP for supervised anomaly detection. Surprisingly, with the bounding-box-based semi-supervisions, SemiREST still outperforms the SOTA methods with full supervision (83.8% AP) on MVTec-AD.
翻訳日:2024-05-30 04:36:37 公開日:2024-05-28
# 相対論的シナリオにおける量子補性トレードオフの解法

Unveiling quantum complementarity tradeoffs in relativistic scenarios ( http://arxiv.org/abs/2306.08136v3 )

ライセンス: Link先を確認
Marcos L. W. Basso, Ismael L. Paiva, Pedro R. Dieguez, (参考訳) 補完性は様々な量子現象を理解する上で重要な役割を果たしている。 ここでは、完全相補関係の量間のトレードオフが、内部スピンを持つ粒子に対して任意の時空でどのように修正されるかを示す。 この効果は、時空における局所的なウィグナー回転に起因し、スピンを系の外部自由度に結合する。 本研究は,2つの一般化遅延チョイス干渉計を用いた。 干渉計内での相補性トレードオフの違いにもかかわらず、両方のセットアップのインターフェロメトリの可視性は、いかなる相対論的状態においても一致している。 我々の結果は、一般相対性理論が局所ウィグナー回転のように量子重畳に対する普遍的なデコヒーレンス効果を誘導し、純粋にキネマティックであり、スピンダイナミクスを妨げているという発見を拡張した。 この結果のニュートン限界を概説する。

Complementarity plays a pivotal role in understanding a diverse range of quantum phenomena. Here, we show how the tradeoff between quantities of a complete complementarity relation is modified in an arbitrary spacetime for a particle with an internal spin. This effect stems from local Wigner rotations in the spacetime, which couple the spin to the system's external degrees of freedom. To conduct our study, we utilize two generalized delayed-choice interferometers. Despite differences in complementarity tradeoffs inside the interferometers, the interferometric visibility of both setups coincides in any relativistic regime. Our results extend the finding that general relativity induces a universal decoherence effect on quantum superpositions, as local Wigner rotations, being purely kinematical, preclude any spin dynamics. To illustrate, we analyze the Newtonian limit of our results.
翻訳日:2024-05-30 04:36:37 公開日:2024-05-28
# Quantum Pufferfish Privacy: 量子システムのためのフレキシブルなプライバシフレームワーク

Quantum Pufferfish Privacy: A Flexible Privacy Framework for Quantum Systems ( http://arxiv.org/abs/2306.13054v2 )

ライセンス: Link先を確認
Theshani Nuradha, Ziv Goldfeld, Mark M. Wilde, (参考訳) 本稿では,量子フグのプライバシ(QPP)と呼ばれる,量子システムのための汎用的なプライバシフレームワークを提案する。 古典的なフグのプライバシーにインスパイアされた私たちの定式化は、プライベート情報、実行可能な測定、ドメイン知識を指定する柔軟性を提供することで、量子微分プライバシーの制限を一般化し、対処します。 本稿では,QPPをData-Leditzky情報スペクトルのばらつきの観点から等価に定式化できることを示す。 我々は、この発散を半定値プログラムとして再定義し、そのいくつかの特性を導出し、QPP機構の凸性、構成性、および後処理を証明するために使用される。 脱分極機構のQPPを保証するパラメータも導出する。 一般QPP機構のプライバシ・ユーティリティ・トレードオフを解析し、また、脱分極機構を明示的な事例として研究する。 QPPフレームワークは、量子アルゴリズムを利用する仮説テストパイプラインを介して、プライバシ違反を特定するためのプライバシ監査に適用される。 量子フェアネスや他の量子分岐への接続についても検討し、いくつかのQPPの変種について検討した。

We propose a versatile privacy framework for quantum systems, termed quantum pufferfish privacy (QPP). Inspired by classical pufferfish privacy, our formulation generalizes and addresses limitations of quantum differential privacy by offering flexibility in specifying private information, feasible measurements, and domain knowledge. We show that QPP can be equivalently formulated in terms of the Datta-Leditzky information spectrum divergence, thus providing the first operational interpretation thereof. We reformulate this divergence as a semi-definite program and derive several properties of it, which are then used to prove convexity, composability, and post-processing of QPP mechanisms. Parameters that guarantee QPP of the depolarization mechanism are also derived. We analyze the privacy-utility tradeoff of general QPP mechanisms and, again, study the depolarization mechanism as an explicit instance. The QPP framework is then applied to privacy auditing for identifying privacy violations via a hypothesis testing pipeline that leverages quantum algorithms. Connections to quantum fairness and other quantum divergences are also explored and several variants of QPP are examined.
翻訳日:2024-05-30 04:36:37 公開日:2024-05-28
# 人中心型eXplainable Artificial Intelligence(XAI)の未来は、ポストホックな説明ではない

The future of human-centric eXplainable Artificial Intelligence (XAI) is not post-hoc explanations ( http://arxiv.org/abs/2307.00364v2 )

ライセンス: Link先を確認
Vinitra Swamy, Jibril Frej, Tanja Käser, (参考訳) 説明可能な人工知能(XAI)は、深層学習システムに対する人間の理解と信頼を可能にする上で重要な役割を担っている。 モデルがより大きく、よりユビキタスになり、日常的な側面で広く普及するにつれて、モデルミスの悪影響を最小限に抑えるために説明可能性が必要である。 残念なことに、人間中心のXAI(例えば医療、教育、パーソナライズされた広告の予測タスク)における現在のアプローチは、単一のポストホックの説明器に依存する傾向にある。 そこで本稿では,現状技術解説者の限界に対処するための行動を呼びかける。 本稿では、ポストホックな説明可能性から解釈可能なニューラルネットワークアーキテクチャの設計へのシフトを提案する。 我々は、人間中心XAI(リアルタイム、正確、行動可能、人間解釈可能、一貫性)の5つのニーズを特定し、解釈可能なニューラルネットワークワークフロー(InterpretCCによる適応ルーティングとI2MDによる時間的診断)の2つのスキームを提案する。 我々は、人間中心のXAIの未来は、ブラックボックスの説明や従来の解釈可能なモデルへの回帰ではなく、本質的に解釈可能なニューラルネットワークにあると仮定する。

Explainable Artificial Intelligence (XAI) plays a crucial role in enabling human understanding and trust in deep learning systems. As models get larger, more ubiquitous, and pervasive in aspects of daily life, explainability is necessary to minimize adverse effects of model mistakes. Unfortunately, current approaches in human-centric XAI (e.g. predictive tasks in healthcare, education, or personalized ads) tend to rely on a single post-hoc explainer, whereas recent work has identified systematic disagreement between post-hoc explainers when applied to the same instances of underlying black-box models. In this paper, we therefore present a call for action to address the limitations of current state-of-the-art explainers. We propose a shift from post-hoc explainability to designing interpretable neural network architectures. We identify five needs of human-centric XAI (real-time, accurate, actionable, human-interpretable, and consistent) and propose two schemes for interpretable-by-design neural network workflows (adaptive routing with InterpretCC and temporal diagnostics with I2MD). We postulate that the future of human-centric XAI is neither in explaining black-boxes nor in reverting to traditional, interpretable models, but in neural networks that are intrinsically interpretable.
翻訳日:2024-05-30 04:36:37 公開日:2024-05-28
# グラフ自己同型群同変ニューラルネットワーク

Graph Automorphism Group Equivariant Neural Networks ( http://arxiv.org/abs/2307.07810v2 )

ライセンス: Link先を確認
Edward Pearce-Crump, William J. Knottenbelt, (参考訳) 置換同変ニューラルネットワークは通常、グラフ上に存在するデータから学習するために使用される。 しかしながら、任意のグラフ $G$ が $n$ 頂点を持つ場合、対称群 $S_n$ をその対称性の群として用いることは、頂点間の関係を考慮に入れない。 対称性の実際の群が自己同型群 Aut$(G)$ であることを考えると、学習可能で線型な Aut$(G)$-同変函数の完全な特徴付けを得ることにより、Aut$(G)$ に同値なニューラルネットワークを構築する方法を示す。 特に、これらの層関数に対して、$\mathbb{R}^{n}$ の標準基底で分散する行列の集合が見つかる。 この結果は、Frucht (1938) の定理により、任意の有限群がグラフの自己同型群に同型であることを示すため、対称性の群が有限群であるデータから学ぶ上で重要な結果をもたらす。

Permutation equivariant neural networks are typically used to learn from data that lives on a graph. However, for any graph $G$ that has $n$ vertices, using the symmetric group $S_n$ as its group of symmetries does not take into account the relations that exist between the vertices. Given that the actual group of symmetries is the automorphism group Aut$(G)$, we show how to construct neural networks that are equivariant to Aut$(G)$ by obtaining a full characterisation of the learnable, linear, Aut$(G)$-equivariant functions between layers that are some tensor power of $\mathbb{R}^{n}$. In particular, we find a spanning set of matrices for these layer functions in the standard basis of $\mathbb{R}^{n}$. This result has important consequences for learning from data whose group of symmetries is a finite group because a theorem by Frucht (1938) showed that any finite group is isomorphic to the automorphism group of a graph.
翻訳日:2024-05-30 04:36:37 公開日:2024-05-28
# 空間ピラミッドプールを用いた畳み込みニューラルネットワークによるネットワークロバスト性評価の包括的解析

Comprehensive Analysis of Network Robustness Evaluation Based on Convolutional Neural Networks with Spatial Pyramid Pooling ( http://arxiv.org/abs/2308.08012v2 )

ライセンス: Link先を確認
Wenjun Jiang, Tianlong Fan, Changhao Li, Chuanfu Zhang, Tao Zhang, Zong-fu Luo, (参考訳) 複雑なネットワークを理解し、最適化し、修復するための重要な側面である接続性の堅牢性は、伝統的に時間がかかり、しばしば非現実的なシミュレーションによって評価されてきた。 幸いなことに、機械学習はこの課題に対処するための新たな道筋を提供する。 しかしながら、より一般的なエッジ削除シナリオのパフォーマンス、堅牢性を直接トレーニングする代わりにアタックカーブを通じて堅牢性を取得すること、予測タスクのスケーラビリティ、予測能力の転送性など、いくつかの重要な問題は未解決のままである。 本稿では、空間ピラミッドプーリングネットワーク(SPP-net)を用いた畳み込みニューラルネットワーク(CNN)モデルの設計、既存の評価指標の適用、攻撃モードの再設計、適切なフィルタリングルールの導入、堅牢性の価値をトレーニングデータとして組み込むことにより、これらの課題に対処する。 その結果、様々なネットワークタイプ、障害コンポーネントタイプ、障害シナリオにまたがる高い計算時間の課題に対処する上で、提案したCNNフレームワークの徹底性を実証した。 しかし、提案したCNNモデルの性能は様々である:訓練されたネットワークタイプと整合性のある評価タスクに対して、提案したCNNモデルは、全ての除去シナリオにおける攻撃曲線とロバストネス値の両方の正確な評価を一貫して達成する。 予測されたネットワークタイプがトレーニングされたネットワークと異なる場合、CNNモデルは、そのスケーラビリティと性能の伝達可能性を示すランダムノード障害のシナリオにおいて、良好なパフォーマンスを示す。 それでも、他の削除シナリオでは、パフォーマンスは期待に届かなかった。 ネットワーク特性の評価におけるこのシナリオ感度は、これまでの研究では見過ごされ、さらなる注意と最適化が必要である。 最後に、重要な未解決問題とさらなる調査について論じる。

Connectivity robustness, a crucial aspect for understanding, optimizing, and repairing complex networks, has traditionally been evaluated through time-consuming and often impractical simulations. Fortunately, machine learning provides a new avenue for addressing this challenge. However, several key issues remain unresolved, including the performance in more general edge removal scenarios, capturing robustness through attack curves instead of directly training for robustness, scalability of predictive tasks, and transferability of predictive capabilities. In this paper, we address these challenges by designing a convolutional neural networks (CNN) model with spatial pyramid pooling networks (SPP-net), adapting existing evaluation metrics, redesigning the attack modes, introducing appropriate filtering rules, and incorporating the value of robustness as training data. The results demonstrate the thoroughness of the proposed CNN framework in addressing the challenges of high computational time across various network types, failure component types and failure scenarios. However, the performance of the proposed CNN model varies: for evaluation tasks that are consistent with the trained network type, the proposed CNN model consistently achieves accurate evaluations of both attack curves and robustness values across all removal scenarios. When the predicted network type differs from the trained network, the CNN model still demonstrates favorable performance in the scenario of random node failure, showcasing its scalability and performance transferability. Nevertheless, the performance falls short of expectations in other removal scenarios. This observed scenario-sensitivity in the evaluation of network features has been overlooked in previous studies and necessitates further attention and optimization. Lastly, we discuss important unresolved questions and further investigation.
翻訳日:2024-05-30 04:36:37 公開日:2024-05-28
# SwapMoE: 可変メモリ予算による既製のMoEベースの言語モデルの実現

SwapMoE: Serving Off-the-shelf MoE-based Language Models with Tunable Memory Budget ( http://arxiv.org/abs/2308.15030v3 )

ライセンス: Link先を確認
Rui Kong, Yuanchun Li, Qingtian Feng, Weijun Wang, Xiaozhou Ye, Ye Ouyang, Linghe Kong, Yunxin Liu, (参考訳) エキスパートの混合(MoE)は、条件付きアクティベートされた並列専門家によるLLM(Large Language Models)のキャパシティを改善するための一般的なテクニックである。 しかし、メモリ制限されたデバイスにMoEモデルを提供するのは、大きなパラメータサイズのため困難である。 メモリスワップやエキスパートプルーニングのような典型的なソリューションは、レイテンシが大幅に高くなり、精度が著しく低下する可能性がある。 本稿では,学習可能なメモリ予算を持つMoEベースの大規模言語モデルの効率的な機能を実現するためのフレームワークであるSwapMoEを紹介する。 SwapMoEの主な考え方は、仮想専門家の小さなダイナミックなセット、すなわち仮想専門家を推論のメインメモリに置き、仮想専門家が実際の専門家にどのようにマップするかをシームレスに維持することだ。 SwapMoEは適切な精度を維持しながらメモリフットプリントを削減できることが実験で示されている。 例えば、Switch Transformerを使ったテキスト要約タスクでは、SwapMoEはメモリ消費を14.2 GiBから4.7 GiBに減らし、50\%の遅延削減とルージュ2のスコアダウンを0.041に抑えることができる。

Mixture of experts (MoE) is a popular technique to improve capacity of Large Language Models (LLMs) with conditionally-activated parallel experts. However, serving MoE models on memory-constrained devices is challenging due to the large parameter size. Typical solutions such as memory swapping or expert pruning may lead to significantly higher latency or severe accuracy loss. In this paper, we introduce SwapMoE, a framework for efficient serving of MoE-based large language models with tunable memory budgets. The main idea of SwapMoE is to keep a small dynamic set of important experts, namely Virtual Experts, in the main memory for inference, while seamlessly maintaining how the Virtual Experts map to the actual experts. Experiments have shown that SwapMoE can reduce the memory footprint while maintaining reasonable accuracy. For example, on text summarization tasks with Switch Transformer, SwapMoE can reduce the memory consumption from 14.2 GiB to 4.7 GiB, together with 50\% latency reduction and a slight Rouge-2 score drop of 0.041.
翻訳日:2024-05-30 04:26:53 公開日:2024-05-28
# BLSP:継続文の振舞いアライメントによるブートストラップ言語-音声事前学習

BLSP: Bootstrapping Language-Speech Pre-training via Behavior Alignment of Continuation Writing ( http://arxiv.org/abs/2309.00916v2 )

ライセンス: Link先を確認
Chen Wang, Minpeng Liao, Zhongqiang Huang, Jinliang Lu, Junhong Wu, Yuchen Liu, Chengqing Zong, Jiajun Zhang, (参考訳) 大規模言語モデル(LLM)の出現は、その顕著な言語能力を音声に拡張することへの大きな関心を喚起した。 しかし、音声とテキストのモダリティアライメントは依然として未解決の問題である。 現在の解は2つの戦略に分類できる。 1つは、別々に訓練された音声認識システムの出力(トークンまたは状態)をLLMの入力として使用するカスケードアプローチであり、音声とテキストのアライメントをモデル化する可能性を制限する。 もう1つは、音声命令データに依存するエンドツーエンドのアプローチであり、膨大な量の収集が困難である。 本稿では,これらの問題に対処し,継続文の動作アライメントによるBootstraps Language-Speech Pre-trainingを提案する。 我々は、凍結音声エンコーダとLDMの間の軽量なモダリティアダプタを学習し、LLMが入力のモダリティ、すなわち音声セグメントまたはその転写文に関わらず、同じ生成挙動を示すことを保証する。 トレーニングプロセスは2つのステップに分けられる。 最初のステップは、LLMにプレフィックスとして音声書き起こしのテキストを生成するように促し、テキスト継続を取得する。 第2のステップでは、これらの継続を教師付き信号として使用して、エンドツーエンドでモダリティアダプタを訓練する。 この簡単な処理により、ゼロショットの言語間シナリオであっても、音声認識、音声翻訳、音声言語理解、音声会話が可能なLLMの能力を音声に拡張できることを実証する。

The emergence of large language models (LLMs) has sparked significant interest in extending their remarkable language capabilities to speech. However, modality alignment between speech and text still remains an open problem. Current solutions can be categorized into two strategies. One is a cascaded approach where outputs (tokens or states) of a separately trained speech recognition system are used as inputs for LLMs, which limits their potential in modeling alignment between speech and text. The other is an end-to-end approach that relies on speech instruction data, which is very difficult to collect in large quantities. In this paper, we address these issues and propose the BLSP approach that Bootstraps Language-Speech Pre-training via behavior alignment of continuation writing. We achieve this by learning a lightweight modality adapter between a frozen speech encoder and an LLM, ensuring that the LLM exhibits the same generation behavior regardless of the modality of input: a speech segment or its transcript. The training process can be divided into two steps. The first step prompts an LLM to generate texts with speech transcripts as prefixes, obtaining text continuations. In the second step, these continuations are used as supervised signals to train the modality adapter in an end-to-end manner. We demonstrate that this straightforward process can extend the capabilities of LLMs to speech, enabling speech recognition, speech translation, spoken language understanding, and speech conversation, even in zero-shot cross-lingual scenarios.
翻訳日:2024-05-30 04:26:52 公開日:2024-05-28
# 分散システムセキュリティにおけるゲーム理論 - 基礎,課題,今後の方向性

Game Theory in Distributed Systems Security: Foundations, Challenges, and Future Directions ( http://arxiv.org/abs/2309.01281v2 )

ライセンス: Link先を確認
Mustafa Abdallah, Saurabh Bagchi, Shaunak D. Bopardikar, Kevin Chan, Xing Gao, Murat Kantarcioglu, Congmiao Li, Peng Liu, Quanyan Zhu, (参考訳) 重要なインフラストラクチャシステムやパーソナルコンピューティングシステムの多くは、分散コンピューティングシステム構造を持っています。 それらを攻撃するインセンティブは、接続度の増加による攻撃面の増加とともに急速に成長している。 したがって、このようなシステムを厳格に推し進める時が来たと感じている。 分散システムのセキュリティとゲーム理論の技術コミュニティが集結して、この課題に効果的に対処することができる。 この記事では、目標を達成するために構築できるそれぞれの基盤をレイアウトします。 次に、分析、システム、統合という3つのカテゴリに分かれたコミュニティのための一連の研究課題について述べる。 この記事は、2022年のSF SaTC PI 会議でコミュニティの議論を通じて考案された。

Many of our critical infrastructure systems and personal computing systems have a distributed computing systems structure. The incentives to attack them have been growing rapidly as has their attack surface due to increasing levels of connectedness. Therefore, we feel it is time to bring in rigorous reasoning to secure such systems. The distributed system security and the game theory technical communities can come together to effectively address this challenge. In this article, we lay out the foundations from each that we can build upon to achieve our goals. Next, we describe a set of research challenges for the community, organized into three categories -- analytical, systems, and integration challenges, each with "short term" time horizon (2-3 years) and "long term" (5-10 years) items. This article was conceived of through a community discussion at the 2022 NSF SaTC PI meeting.
翻訳日:2024-05-30 04:26:52 公開日:2024-05-28
# SPD行列列のための構造保存変換器

Structure-Preserving Transformers for Sequences of SPD Matrices ( http://arxiv.org/abs/2309.07579v7 )

ライセンス: Link先を確認
Mathieu Seraphim, Alexis Lechervy, Florian Yger, Luc Brun, Olivier Etard, (参考訳) 近年,トランスフォーマーをベースとした自動アテンション機構は,テキストから画像まで,非ユークリッド測地データを含む,さまざまなコンテキスト依存データ型の分析に成功している。 本稿では,その解析を通してリーマン幾何学を保存しながら,対称正定値行列の列を分類する機構を提案する。 本手法は,脳波由来の共分散行列を標準データセットからタイムリーに自動睡眠ステージングに応用し,ステージワイドのパフォーマンスを高いレベルに向上させる。

In recent years, Transformer-based auto-attention mechanisms have been successfully applied to the analysis of a variety of context-reliant data types, from texts to images and beyond, including data from non-Euclidean geometries. In this paper, we present such a mechanism, designed to classify sequences of Symmetric Positive Definite matrices while preserving their Riemannian geometry throughout the analysis. We apply our method to automatic sleep staging on timeseries of EEG-derived covariance matrices from a standard dataset, obtaining high levels of stage-wise performance.
翻訳日:2024-05-30 04:26:52 公開日:2024-05-28
# 視覚慣性オドメトリーを用いたタイトフュージョンによる単トラック地上車両ダイナミクスモデルのオンライン校正

Online Calibration of a Single-Track Ground Vehicle Dynamics Model by Tight Fusion with Visual-Inertial Odometry ( http://arxiv.org/abs/2309.11148v3 )

ライセンス: Link先を確認
Haolong Li, Joerg Stueckler, (参考訳) 車輪付き移動ロボットは、その動きと、ナビゲーション計画における制御行動の効果を推定する能力を必要としている。 本稿では,視覚的慣性オドメトリー (VIO) を用いた車輪付き地上車両のシングルトラックダイナミックスモデルを厳密に融合する新しいアプローチST-VIOを提案する。 提案手法は,将来的な制御入力における前方予測の精度を向上させるために,動的モデルをオンラインで校正し,適応する。 単トラック動力学モデルでは、通常の微分方程式を用いて、平地での特定の制御入力の下での車輪付き車両の運動を近似する。 我々は、単一トラックモデルの特異性のない微分可能な変種を用いて、動的因子をVIOにシームレスに統合し、VIO状態変数とともにオンラインのモデルパラメータを最適化する。 地形や車輪の異なる屋内・屋外両環境における実環境データを用いて,本手法の有効性を検証した。 実験では、ST-VIOは車輪や地面の変化に適応できるだけでなく、新しい制御入力下での予測精度を向上できるだけでなく、トラッキング精度も向上できることを示した。

Wheeled mobile robots need the ability to estimate their motion and the effect of their control actions for navigation planning. In this paper, we present ST-VIO, a novel approach which tightly fuses a single-track dynamics model for wheeled ground vehicles with visual inertial odometry (VIO). Our method calibrates and adapts the dynamics model online to improve the accuracy of forward prediction conditioned on future control inputs. The single-track dynamics model approximates wheeled vehicle motion under specific control inputs on flat ground using ordinary differential equations. We use a singularity-free and differentiable variant of the single-track model to enable seamless integration as dynamics factor into VIO and to optimize the model parameters online together with the VIO state variables. We validate our method with real-world data in both indoor and outdoor environments with different terrain types and wheels. In experiments, we demonstrate that ST-VIO can not only adapt to wheel or ground changes and improve the accuracy of prediction under new control inputs, but can even improve tracking accuracy.
翻訳日:2024-05-30 04:26:52 公開日:2024-05-28
# グラフニューラルネットワークとマルチグラフを用いた記事分類

Article Classification with Graph Neural Networks and Multigraphs ( http://arxiv.org/abs/2309.11341v2 )

ライセンス: Link先を確認
Khang Ly, Yury Kashnitsky, Savvas Chamezopoulos, Valeria Krzhizhanovskaya, (参考訳) 研究成果を文脈固有のラベル分類に分類することは、既存の記事や新しく公開された記事の量を考えると、困難で関連性の高い下流課題である。 本稿では,複数の記事関連性,eg参照,共著者,共著者,共有出版元,共有被写体見出しを異なるエッジタイプとして同時に符号化する,シンプルなグラフニューラルネットワーク(GNN)パイプラインにマルチグラフ表現を付加することにより,記事分類の性能を向上させる手法を提案する。 完全な教師付きトランスダクティブノード分類実験は、Open Graph Benchmark OGBN-arXivデータセットとPubMed糖尿病データセットで行われ、それぞれMicrosoft Academic GraphとPubMed Centralのメタデータが追加されている。 その結果、マルチグラフはデフォルトグラフと比較して、様々なGNNモデルの性能を一貫して改善することを示した。 SOTAテキストノードの埋め込み方式でデプロイすると、変換されたマルチグラフは、より複雑なアーキテクチャと同等に、単純で浅い2層GNNパイプラインを実現できる。

Classifying research output into context-specific label taxonomies is a challenging and relevant downstream task, given the volume of existing and newly published articles. We propose a method to enhance the performance of article classification by enriching simple Graph Neural Network (GNN) pipelines with multi-graph representations that simultaneously encode multiple signals of article relatedness, e.g. references, co-authorship, shared publication source, shared subject headings, as distinct edge types. Fully supervised transductive node classification experiments are conducted on the Open Graph Benchmark OGBN-arXiv dataset and the PubMed diabetes dataset, augmented with additional metadata from Microsoft Academic Graph and PubMed Central, respectively. The results demonstrate that multi-graphs consistently improve the performance of a variety of GNN models compared to the default graphs. When deployed with SOTA textual node embedding methods, the transformed multi-graphs enable simple and shallow 2-layer GNN pipelines to achieve results on par with more complex architectures.
翻訳日:2024-05-30 04:26:52 公開日:2024-05-28
# 可視性フィールドのための視覚に基づくナビゲーションシステム

A Vision-Based Navigation System for Arable Fields ( http://arxiv.org/abs/2309.11989v2 )

ライセンス: Link先を確認
Rajitha de Silva, Grzegorz Cielniak, Junfeng Gao, (参考訳) 耕作地における視覚に基づくナビゲーションシステムは、農業用ロボットナビゲーションの未調査領域である。 耕作可能な畑に配備された視覚システムは、雑草密度の変動、照明レベルの変化、成長段階、作物列の不規則といった課題に直面している。 現在のソリューションは、しばしば作物特有のものであり、照明や雑草密度といった限られた個々の条件に対処することを目的としている。 さらに、包括的なデータセットの不足は、これらの分野をナビゲートする汎用機械学習システムの開発を妨げる。 本稿では、安価な視覚センサを用いたディープラーニングに基づく認識アルゴリズムの集合体について提案する。 初めは、複数の作物の季節、様々な作物の種類、および様々な畑の変動の複雑さを捉える包括的データセットがコンパイルされた。 次に, 異なる生育段階, 雑草密度, 様々な照明条件下で, 作物列を正確に検出できる頑健な内野認識アルゴリズムの開発について検討した。 さらに、効率的なフィールドスケールナビゲーションのための、視覚に基づく作物列切替と追従する作物列の統合について検討する。 提案した内野航法システムは,平均航路誤差 1.24{\deg} と3.32 cm の4.5kmの距離を横断する商業耕地で試験された。

Vision-based navigation systems in arable fields are an underexplored area in agricultural robot navigation. Vision systems deployed in arable fields face challenges such as fluctuating weed density, varying illumination levels, growth stages and crop row irregularities. Current solutions are often crop-specific and aimed to address limited individual conditions such as illumination or weed density. Moreover, the scarcity of comprehensive datasets hinders the development of generalised machine learning systems for navigating these fields. This paper proposes a suite of deep learning-based perception algorithms using affordable vision sensors for vision-based navigation in arable fields. Initially, a comprehensive dataset that captures the intricacies of multiple crop seasons, various crop types, and a range of field variations was compiled. Next, this study delves into the creation of robust infield perception algorithms capable of accurately detecting crop rows under diverse conditions such as different growth stages, weed density, and varying illumination. Further, it investigates the integration of crop row following with vision-based crop row switching for efficient field-scale navigation. The proposed infield navigation system was tested in commercial arable fields traversing a total distance of 4.5 km with average heading and cross-track errors of 1.24{\deg} and 3.32 cm respectively.
翻訳日:2024-05-30 04:26:52 公開日:2024-05-28
# LongDocFACTScore:ロングドキュメント抽象要約の現実性を評価する

LongDocFACTScore: Evaluating the Factuality of Long Document Abstractive Summarisation ( http://arxiv.org/abs/2309.12455v2 )

ライセンス: Link先を確認
Jennifer A Bishop, Qianqian Xie, Sophia Ananiadou, (参考訳) 事実整合性を維持することは抽象的なテキスト要約において重要な問題であるが、ROUGEスコアなどのテキスト要約を評価するために使用される従来の自動メトリクスでは評価できない。 近年,事前訓練された言語モデルを用いて,事実整合性を測定するための指標の改良に力を入れているが,これらの指標には制限的なトークン制限があり,長文の要約評価には適していない。 さらに、長期文書設定に適用した場合、既存の自動評価指標が目的に適合するかどうかを評価するための研究や資源も限られている。 本研究では,長文要約の事実整合性を評価するための自動測度の有効性を評価する。 我々は、科学的領域からの長文要約のためのきめ細かい事実整合アノテーションを含む、自動事実性メトリクスを評価するための人間アノテーション付きデータセット、LongSciVerifyを作成します。 また,長文要約評価に適した新しい評価フレームワークであるLongDocFACTScoreを提案する。 このフレームワークは、メトリクスを任意の長さのドキュメントに効率的に拡張し、長いドキュメントの要約データセットを評価する際に、人間の事実の尺度と相関する能力において、既存の最先端のメトリクスより優れている。 コードとLongSciVerifyデータセットを公開しています。

Maintaining factual consistency is a critical issue in abstractive text summarisation, however, it cannot be assessed by traditional automatic metrics used for evaluating text summarisation, such as ROUGE scoring. Recent efforts have been devoted to developing improved metrics for measuring factual consistency using pre-trained language models, but these metrics have restrictive token limits, and are therefore not suitable for evaluating long document text summarisation. Moreover, there is limited research and resources available for evaluating whether existing automatic evaluation metrics are fit for purpose when applied in long document settings. In this work, we evaluate the efficacy of automatic metrics for assessing the factual consistency of long document text summarisation. We create a human-annotated data set for evaluating automatic factuality metrics, LongSciVerify, which contains fine-grained factual consistency annotations for long document summaries from the scientific domain. We also propose a new evaluation framework, LongDocFACTScore, which is suitable for evaluating long document summarisation. This framework allows metrics to be efficiently extended to any length document and outperforms existing state-of-the-art metrics in its ability to correlate with human measures of factuality when used to evaluate long document summarisation data sets. We make our code and LongSciVerify data set publicly available: https://github.com/jbshp/LongDocFACTScore.
翻訳日:2024-05-30 04:26:52 公開日:2024-05-28
# 2-Cats:2次元コプラ近似変換

2-Cats: 2D Copula Approximating Transforms ( http://arxiv.org/abs/2309.16391v5 )

ライセンス: Link先を確認
Flavio Figueiredo, José Geraldo Fernandes, Jackson Silva, Renato M. Assunção, (参考訳) Copulaは、データ次元を越えた依存関係をキャプチャするための強力な統計ツールである。 Copulasを適用するには、単純なタスクである独立した辺縁関係を推定し、それに続いて、これらの辺縁関係をリンクする単一の対応関数である$C$を決定するという、はるかに難しいタスクが続く。 二変数データに対して、コプラは 2 つの増分関数 $C: (u,v)\in \mathbb{I}^2 \rightarrow \mathbb{I}$, ここで $\mathbb{I} = [0, 1]$ となる。 本稿では,コピュラ族(アルキメデス系など)に依存しない2次元コピュラ学習モデルである2-Catsを提案する。 さらに、モデルの理論的性質とラグランジアントレーニングアプローチの両方を通して、2-カッツがコプラ性質のデシラタを満たすことを示す。 さらに,物理インフォームドニューラルネットワークとソボレフトレーニングの文献に触発されて,コピュラの出力だけでなく,その誘導体も学習するためのトレーニング戦略をさらに拡張する。 提案手法は,Cの特徴を尊重しつつ,様々なデータセットをまたいだ最先端技術よりも優れた性能を示す。

Copulas are powerful statistical tools for capturing dependencies across data dimensions. Applying Copulas involves estimating independent marginals, a straightforward task, followed by the much more challenging task of determining a single copulating function, $C$, that links these marginals. For bivariate data, a copula takes the form of a two-increasing function $C: (u,v)\in \mathbb{I}^2 \rightarrow \mathbb{I}$, where $\mathbb{I} = [0, 1]$. This paper proposes 2-Cats, a Neural Network (NN) model that learns two-dimensional Copulas without relying on specific Copula families (e.g., Archimedean). Furthermore, via both theoretical properties of the model and a Lagrangian training approach, we show that 2-Cats meets the desiderata of Copula properties. Moreover, inspired by the literature on Physics-Informed Neural Networks and Sobolev Training, we further extend our training strategy to learn not only the output of a Copula but also its derivatives. Our proposed method exhibits superior performance compared to the state-of-the-art across various datasets while respecting (provably for most and approximately for a single other) properties of C.
翻訳日:2024-05-30 04:26:52 公開日:2024-05-28
# 平凡な視点での記憶 : 連想記憶と拡散モデルの不気味な展開

Memory in Plain Sight: Surveying the Uncanny Resemblances of Associative Memories and Diffusion Models ( http://arxiv.org/abs/2309.16750v2 )

ライセンス: Link先を確認
Benjamin Hoover, Hendrik Strobelt, Dmitry Krotov, Judy Hoffman, Zsolt Kira, Duen Horng Chau, (参考訳) 拡散モデル(DM)の生成プロセスは、最近、多くのAI生成ベンチマークに最先端を定めている。 生成過程は伝統的に「実証的なデノイザー」として理解されているが、それを記述するための普遍的な言語は存在しない。 本稿では,エネルギーをベースとした連想記憶(AM)分野からのメモリ検索の数学的言語を用いて,DMを記述するための新たな視点を紹介する。 これらの2つの分野を統合することで、DMは特定の種類のAMと見なすことができ、リアプノフの安定性保証は、認知過程の力学(すなわちノイズとステップサイズスケジュール)をインテリジェントに工学することでバイパスされる。 最後に、AMから期待される経験的行動を示すDMを記録できることの証拠として、DMをエネルギーベースメモリの一種として理解することによって明らかにされる研究の機会について論じる。

The generative process of Diffusion Models (DMs) has recently set state-of-the-art on many AI generation benchmarks. Though the generative process is traditionally understood as an "iterative denoiser", there is no universally accepted language to describe it. We introduce a novel perspective to describe DMs using the mathematical language of memory retrieval from the field of energy-based Associative Memories (AMs), making efforts to keep our presentation approachable to newcomers to both of these fields. Unifying these two fields provides insight that DMs can be seen as a particular kind of AM where Lyapunov stability guarantees are bypassed by intelligently engineering the dynamics (i.e., the noise and step size schedules) of the denoising process. Finally, we present a growing body of evidence that records DMs exhibiting empirical behavior we would expect from AMs, and conclude by discussing research opportunities that are revealed by understanding DMs as a form of energy-based memory.
翻訳日:2024-05-30 04:26:52 公開日:2024-05-28
# マルチバッチ強化学習におけるサンプル効率:次元依存型適応性の必要性

Sample-Efficiency in Multi-Batch Reinforcement Learning: The Need for Dimension-Dependent Adaptivity ( http://arxiv.org/abs/2310.01616v2 )

ライセンス: Link先を確認
Emmeran Johnson, Ciara Pike-Burke, Patrick Rebeschini, (参考訳) 強化学習におけるサンプル効率と適応性の関係を理論的に検討する。 アルゴリズムは、問題の次元$d$の多項式である環境に対して、多くのクエリ$n$を使用する場合、サンプリング効率がよい。 適応性(Adaptivity)とは、クエリが送信され、クエリ戦略を更新するためにフィードバックが処理される頻度を指す。 この相互作用を調べるために、我々は、K$のバッチでクエリを送信できる学習フレームワークを使用し、フィードバックは処理され、各バッチ後にクエリが更新される。 このモデルは、非適応的な「オフライン」(K=1$)から完全に適応的な(K=n$)シナリオまで、適応スペクトル全体を含む。 $d$次元線形関数近似の下での政策評価と最良政治的識別の問題に対して、$n = O(poly(d))$クエリでサンプル効率のアルゴリズムに必要なバッチ数に対して$\Omega(\log \log d)$低い境界を確立する。 以上の結果から,適応性(K>1$)だけでは必ずしも試料効率が保証されないことがわかった。 特に、サンプル効率に対する適応性境界は、サンプル効率が不可能であることが判明したオフライン強化学習(K=1$)と適応設定の間にはない。 代わりに、境界は適応性の異なる状態の間にあり、問題次元に依存する。

We theoretically explore the relationship between sample-efficiency and adaptivity in reinforcement learning. An algorithm is sample-efficient if it uses a number of queries $n$ to the environment that is polynomial in the dimension $d$ of the problem. Adaptivity refers to the frequency at which queries are sent and feedback is processed to update the querying strategy. To investigate this interplay, we employ a learning framework that allows sending queries in $K$ batches, with feedback being processed and queries updated after each batch. This model encompasses the whole adaptivity spectrum, ranging from non-adaptive 'offline' ($K=1$) to fully adaptive ($K=n$) scenarios, and regimes in between. For the problems of policy evaluation and best-policy identification under $d$-dimensional linear function approximation, we establish $\Omega(\log \log d)$ lower bounds on the number of batches $K$ required for sample-efficient algorithms with $n = O(poly(d))$ queries. Our results show that just having adaptivity ($K>1$) does not necessarily guarantee sample-efficiency. Notably, the adaptivity-boundary for sample-efficiency is not between offline reinforcement learning ($K=1$), where sample-efficiency was known to not be possible, and adaptive settings. Instead, the boundary lies between different regimes of adaptivity and depends on the problem dimension.
翻訳日:2024-05-30 04:26:52 公開日:2024-05-28
# AdaMerging: マルチタスク学習のための適応モデルマージ

AdaMerging: Adaptive Model Merging for Multi-Task Learning ( http://arxiv.org/abs/2310.02575v2 )

ライセンス: Link先を確認
Enneng Yang, Zhenyi Wang, Li Shen, Shiwei Liu, Guibing Guo, Xingwei Wang, Dacheng Tao, (参考訳) マルチタスク学習(MTL)は、モデルを複数のタスクに同時に取り組む能力を高めることを目的としている。 タスク算術として知られる最近の研究により、個々のタスクに微調整された複数のモデルを直接1つのモデルにマージしてMTLを実行することができ、初期トレーニングデータを使って再学習プロセスを実行する必要がなくなることが明らかになった。 しかし、この直接的なモデルの追加は、しばしばマージされたモデル全体の性能を著しく低下させる。 この減少は、潜在的な対立と複数のタスク間の複雑な相関によって起こる。 その結果、既存のトレーニングデータを使わずに、事前学習したモデルをより効果的にマージする方法の課題が浮かび上がっている。 本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。 このアプローチは、オリジナルのトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目的としている。 具体的には、AdaMergingメソッドは自動教師なしタスク演算スキームとして機能する。 マルチタスク設定の未ラベルテストサンプルのエントロピー最小化を代理目的関数として利用し、複数のモデルのマージ係数を反復的に洗練する。 8つの課題にまたがる実験結果から,AdaMerging法の有効性が示された。 AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。 特に、AdaMergingは、ダウンストリームタスクの見当たらないタスクに適用した場合、優れた一般化能力を示す。 さらに、テストフェーズ中に発生する可能性のあるデータ分散シフトに対して、大幅に強化された堅牢性を示す。

Multi-task learning (MTL) aims to empower a model to tackle multiple tasks simultaneously. A recent development known as task arithmetic has revealed that several models, each fine-tuned for distinct tasks, can be directly merged into a single model to execute MTL without necessitating a retraining process using the initial training data. Nevertheless, this direct addition of models often leads to a significant deterioration in the overall performance of the merged model. This decline occurs due to potential conflicts and intricate correlations among the multiple tasks. Consequently, the challenge emerges of how to merge pre-trained models more effectively without using their original training data. This paper introduces an innovative technique called Adaptive Model Merging (AdaMerging). This approach aims to autonomously learn the coefficients for model merging, either in a task-wise or layer-wise manner, without relying on the original training data. Specifically, our AdaMerging method operates as an automatic, unsupervised task arithmetic scheme. It leverages entropy minimization on unlabeled test samples from the multi-task setup as a surrogate objective function to iteratively refine the merging coefficients of the multiple models. Our experimental findings across eight tasks demonstrate the efficacy of the AdaMerging scheme we put forth. Compared to the current state-of-the-art task arithmetic merging scheme, AdaMerging showcases a remarkable 11\% improvement in performance. Notably, AdaMerging also exhibits superior generalization capabilities when applied to unseen downstream tasks. Furthermore, it displays a significantly enhanced robustness to data distribution shifts that may occur during the testing phase.
翻訳日:2024-05-30 04:26:52 公開日:2024-05-28
# 低温原子量子不純物系における相互作用の制御

Controlling the interactions in a cold atom quantum impurity system ( http://arxiv.org/abs/2310.02771v2 )

ライセンス: Link先を確認
Thomas Hewitt, Tom Bertheas, Manan Jain, Yusuke Nishida, Giovanni Barontini, (参考訳) 我々は、Kの1つの原子が光学式ツイーザに閉じ込められ、超低温でRb原子の浴に浸漬される実験アーキテクチャを実装した。 この状態において、単一の閉じ込められた原子の運動は最低の量子振動レベルに制限される。 これにより、基本的で完全に制御可能な量子不純物システムを実現する。 K原子のトラップには種選択的双極子ポテンシャルを使用し、量子不純物と入浴を独立に操作することができる。 我々は2つのサブシステム間の相互作用の特性と制御に集中する。 この目的のために、我々は、KRb種間散乱長に対する数次元閉じ込め誘起フェシュバッハ共鳴を検出し、相互作用の強度をパラメタライズするフェシュバッハ分光を行う。 我々は、このデータを次元間散乱の理論と比較し、良好な一致を求める。 また、基礎となる自由空間s波相互作用から生じる一連のp波共鳴も検出する。 さらに、共鳴が浴槽の温度としてどのように振る舞うかを判断し、相互作用の次元が変化する。 さらに、光ツイーザーを発生させる光の波長を微調整することで、浴槽から量子不純物を検出することができ、相互作用を制御し、最小化する新しい効果的なツールが提供されます。 我々の結果は、量子不純物モデル、量子情報、量子熱力学の量子シミュレーションにおいて、量子化されたシステムと浴の間の相互作用が強力だが、ほとんど利用されていないリソースである、様々な新しい可能性を開く。

We implement an experimental architecture in which a single atom of K is trapped in an optical tweezer, and is immersed in a bath of Rb atoms at ultralow temperatures. In this regime, the motion of the single trapped atom is confined to the lowest quantum vibrational levels. This realizes an elementary and fully controllable quantum impurity system. For the trapping of the K atom, we use a species-selective dipole potential, that allows us to independently manipulate the quantum impurity and the bath. We concentrate on the characterization and control of the interactions between the two subsystems. To this end, we perform Feshbach spectroscopy, detecting several inter-dimensional confinement-induced Feshbach resonances for the KRb interspecies scattering length, that parametrizes the strength of the interactions. We compare our data to a theory for inter-dimensional scattering, finding good agreement. Notably, we also detect a series of p-wave resonances stemming from the underlying free-space s-wave interactions. We further determine how the resonances behave as the temperature of the bath and the dimensionality of the interactions change. Additionally, we are able to screen the quantum impurity from the bath by finely tuning the wavelength of the light that produces the optical tweezer, providing us with a new effective tool to control and minimize the interactions. Our results open a range of new possibilities in quantum simulations of quantum impurity models, quantum information, and quantum thermodynamics, where the interactions between a quantized system and the bath is a powerful yet largely underutilized resource.
翻訳日:2024-05-30 04:17:08 公開日:2024-05-28
# 気候情報に基づく大規模言語モデルの評価

Assessing Large Language Models on Climate Information ( http://arxiv.org/abs/2310.02932v2 )

ライセンス: Link先を確認
Jannis Bulian, Mike S. Schäfer, Afra Amini, Heidi Lam, Massimiliano Ciaramita, Ben Gaiarin, Michelle Chen Hübscher, Christian Buck, Niels G. Mede, Markus Leippold, Nadine Strauß, (参考訳) LLM(Large Language Models)の人気が高まっているため、重要な領域において、それらの能力を評価する必要がある。 気候変動に関する質問に対するLCM応答を評価するため,科学コミュニケーション研究を基盤とした総合的な評価枠組みを提案する。 本フレームワークは,8次元と30の課題にまたがるLLM世代を詳細に解析し,プレゼンテーション的および認識論的妥当性を強調した。 私たちの評価タスクは、AIが人間のパフォーマンスを補完し、引き上げることのできる、多くの困難な問題の実例です。 スケーラブルな監視のための新しいプロトコルを導入し、AIアシストと関連する教育のレーダに依存します。 我々は,近年のLCMを,様々な気候問題に対して評価した。 以上の結果から,気候コミュニケーションの領域におけるLLMの表面と認識学的品質の差が顕著であったことが示唆された。

As Large Language Models (LLMs) rise in popularity, it is necessary to assess their capability in critically relevant domains. We present a comprehensive evaluation framework, grounded in science communication research, to assess LLM responses to questions about climate change. Our framework emphasizes both presentational and epistemological adequacy, offering a fine-grained analysis of LLM generations spanning 8 dimensions and 30 issues. Our evaluation task is a real-world example of a growing number of challenging problems where AI can complement and lift human performance. We introduce a novel protocol for scalable oversight that relies on AI Assistance and raters with relevant education. We evaluate several recent LLMs on a set of diverse climate questions. Our results point to a significant gap between surface and epistemological qualities of LLMs in the realm of climate communication.
翻訳日:2024-05-30 04:17:08 公開日:2024-05-28
# MinPrompt: Few-shot Question Answeringのためのグラフベースの最小プロンプトデータ拡張

MinPrompt: Graph-based Minimal Prompt Data Augmentation for Few-shot Question Answering ( http://arxiv.org/abs/2310.05007v3 )

ライセンス: Link先を確認
Xiusi Chen, Jyun-Yu Jiang, Wei-Cheng Chang, Cho-Jui Hsieh, Hsiang-Fu Yu, Wei Wang, (参考訳) 最近のQAの進歩は、主に訓練済みの大規模言語モデル(LLM)のパワーと特定の設定での微調整に依存している。 事前学習段階はすでに強力な推論能力を持つLLMを搭載しているが、最高の結果を得るためには、特定の領域に適応するように微調整する必要がある。 本稿では,細調整のための最も情報性の高いデータを選択することを提案する。これにより,オープンドメインQAタスクにおいて,比較あるいはより精度の高い微調整プロセスの効率が向上する。 我々は、近似グラフアルゴリズムと教師なし質問生成に基づく、オープンドメインQAのための最小限のデータ拡張フレームワークMinPromptを提案する。 我々は、生テキストをグラフ構造に変換して、異なる事実文間の接続を構築し、それからグラフアルゴリズムを適用して、生テキストの最も多くの情報をカバーするのに必要な最小限の文の集合を識別する。 次に、同定された文サブセットに基づいてQAペアを生成し、選択した文に基づいてモデルをトレーニングし、最終モデルを得る。 いくつかのベンチマークデータセットと理論的分析による実験結果から、MinPromptはベースラインよりも高い効率で同等またはより良い結果を得ることができることが示され、F-1スコアの一貫性が向上した。

Recent advances in few-shot question answering (QA) mostly rely on the power of pre-trained large language models (LLMs) and fine-tuning in specific settings. Although the pre-training stage has already equipped LLMs with powerful reasoning capabilities, LLMs still need to be fine-tuned to adapt to specific domains to achieve the best results. In this paper, we propose to select the most informative data for fine-tuning, thereby improving the efficiency of the fine-tuning process with comparative or even better accuracy on the open-domain QA task. We present MinPrompt, a minimal data augmentation framework for open-domain QA based on an approximate graph algorithm and unsupervised question generation. We transform the raw text into a graph structure to build connections between different factual sentences, then apply graph algorithms to identify the minimal set of sentences needed to cover the most information in the raw text. We then generate QA pairs based on the identified sentence subset and train the model on the selected sentences to obtain the final model. Empirical results on several benchmark datasets and theoretical analysis show that MinPrompt is able to achieve comparable or better results than baselines with a high degree of efficiency, bringing consistent improvements in F-1 scores.
翻訳日:2024-05-30 04:17:08 公開日:2024-05-28
# Pi-dual: ノイズラベルからクリーンを識別するためにプリビレジド情報を使用する

Pi-DUAL: Using Privileged Information to Distinguish Clean from Noisy Labels ( http://arxiv.org/abs/2310.06600v2 )

ライセンス: Link先を確認
Ke Wang, Guillermo Ortiz-Jimenez, Rodolphe Jenatton, Mark Collier, Efi Kokiopoulou, Pascal Frossard, (参考訳) ラベルノイズはディープラーニングにおいて広範に発生する問題であり、しばしば訓練されたモデルの一般化性能を損なう。 最近では、この問題を緩和するための効果的なアプローチとして、特権情報(PI)(トレーニング時にのみ利用できるが、テスト時には利用できない情報)の利用が登場している。 しかし、既存のPIベースの手法は、ラベルのノイズへの過度な適合を防ぐという点で、PIなしの手法を一貫して上回ってはいない。 この欠陥に対処するために, PI を利用した間違ったラベルとクリーンなラベルを区別するアーキテクチャ Pi-DUAL を導入する。 Pi-DUALは、従来の入力特徴に基づいて出力ログを予測項に分解し、PIにのみ影響されるノイズ適合項を生成する。 PIによって操縦されるゲーティング機構は、これらの用語間の焦点を適応的にシフトし、モデルがクリーンなラベルと間違ったラベルの学習パスを暗黙的に分離できるようにする。 実証的には、Pi-DUALは主要なPIベンチマーク(ImageNet-PIでは+6.8%)で大幅なパフォーマンス向上を実現し、新しい最先端のテストセットの精度を確立した。 さらに、Pi-DUALは、トレーニング後のノイズの多いサンプルを識別する強力な方法であり、このタスクで他の強力なメソッドよりも優れている。 全体として、Pi-DUALは、PIを使った様々な現実世界シナリオにおけるラベルノイズの影響を軽減するための、シンプルでスケーラブルで実践的なアプローチである。

Label noise is a pervasive problem in deep learning that often compromises the generalization performance of trained models. Recently, leveraging privileged information (PI) -- information available only during training but not at test time -- has emerged as an effective approach to mitigate this issue. Yet, existing PI-based methods have failed to consistently outperform their no-PI counterparts in terms of preventing overfitting to label noise. To address this deficiency, we introduce Pi-DUAL, an architecture designed to harness PI to distinguish clean from wrong labels. Pi-DUAL decomposes the output logits into a prediction term, based on conventional input features, and a noise-fitting term influenced solely by PI. A gating mechanism steered by PI adaptively shifts focus between these terms, allowing the model to implicitly separate the learning paths of clean and wrong labels. Empirically, Pi-DUAL achieves significant performance improvements on key PI benchmarks (e.g., +6.8% on ImageNet-PI), establishing a new state-of-the-art test set accuracy. Additionally, Pi-DUAL is a potent method for identifying noisy samples post-training, outperforming other strong methods at this task. Overall, Pi-DUAL is a simple, scalable and practical approach for mitigating the effects of label noise in a variety of real-world scenarios with PI.
翻訳日:2024-05-30 04:17:08 公開日:2024-05-28
# STELLA: 時空間定位アライメントによる連続的なオーディオビデオ事前トレーニング

STELLA: Continual Audio-Video Pre-training with Spatio-Temporal Localized Alignment ( http://arxiv.org/abs/2310.08204v3 )

ライセンス: Link先を確認
Jaewoo Lee, Jaehong Yoon, Wonjae Kim, Yunji Kim, Sung Ju Hwang, (参考訳) 様々な音声・ビデオのセマンティクスを時間とともに継続的に学習することは、進化を続ける世界の音声関連推論タスクに不可欠である。 しかし、これは非自明な問題であり、オーディオとビデオのペア間のスパース時空間相関と、オーディオとビデオの関係を忘れるマルチモーダル相関オーバーライトの2つの重要な課題を提起する。 この問題に対処するため,(1)局所的パッチ・コンパタンス・スコアリング(Localized Patch Importance Scoring):各パッチの重要スコアを決定するためのマルチモーダル・エンコーダを導入し,セマンティック・インターツウィンド・オーディオ・ビデオ・パッチを強調した。 2) 再生誘導型相関評価: ドリフトによる学習前の聴覚知識の劣化を低減するため, 過去のステップにおける現在のパッチの相関性を評価し, 過去のステップと高い相関性を示すパッチを特定することを提案する。 この2つのアイデアから得られた結果に基づいて,有効な連続的なオーディオビデオ事前学習のための確率的パッチ選択を行う。 複数のベンチマークによる実験結果から, ゼロショット検索タスクの相対的な性能向上率は, 連続学習ベースラインに比べて3.69%向上し, メモリ消費量を約45%削減できることがわかった。

Continuously learning a variety of audio-video semantics over time is crucial for audio-related reasoning tasks in our ever-evolving world. However, this is a nontrivial problem and poses two critical challenges: sparse spatio-temporal correlation between audio-video pairs and multimodal correlation overwriting that forgets audio-video relations. To tackle this problem, we propose a new continual audio-video pre-training method with two novel ideas: (1) Localized Patch Importance Scoring: we introduce a multimodal encoder to determine the importance score for each patch, emphasizing semantically intertwined audio-video patches. (2) Replay-guided Correlation Assessment: to reduce the corruption of previously learned audiovisual knowledge due to drift, we propose to assess the correlation of the current patches on the past steps to identify the patches exhibiting high correlations with the past steps. Based on the results from the two ideas, we perform probabilistic patch selection for effective continual audio-video pre-training. Experimental validation on multiple benchmarks shows that our method achieves a 3.69%p of relative performance gain in zero-shot retrieval tasks compared to strong continual learning baselines, while reducing memory consumption by ~45%.
翻訳日:2024-05-30 04:17:08 公開日:2024-05-28
# ディープニューラルネットワーク分類器における潜時バイナリ符号化の創発

Emergence of Latent Binary Encoding in Deep Neural Network Classifiers ( http://arxiv.org/abs/2310.08224v4 )

ライセンス: Link先を確認
Luigi Sbailò, Luca Ghiringhelli, (参考訳) ディープ・ニューラル・ネットワーク分類器の潜時空間におけるバイナリエンコーディングの出現について検討する。 このようなバイナリエンコーディングは、トレーニング中に潜在表現を圧縮するために特別に設計された損失関数を使用する線形直列層の導入によって引き起こされる。 圧縮と情報保持のトレードオフの結果、ネットワークは潜伏空間の各次元について2つの可能な値のうちの1つを仮定することを学ぶ。 バイナリエンコーディングは、ハイパーキューブの頂点に対応する同じクラスのすべての表現を同じ点に崩壊させることによって引き起こされる。 複雑性を増大させるいくつかのデータセットを解析することにより、バイナリエンコーディングの出現がロバスト性を大幅に向上させ、ネットワークの信頼性と一般化を著しく改善する実証的証拠を提供する。

We investigate the emergence of binary encoding within the latent space of deep-neural-network classifiers. Such binary encoding is induced by the introduction of a linear penultimate layer, which employs during training a loss function specifically designed to compress the latent representations. As a result of a trade-off between compression and information retention, the network learns to assume only one of two possible values for each dimension in the latent space. The binary encoding is provoked by the collapse of all representations of the same class to the same point, which corresponds to the vertex of a hypercube. By analyzing several datasets of increasing complexity, we provide empirical evidence that the emergence of binary encoding dramatically enhances robustness while also significantly improving the reliability and generalization of the network.
翻訳日:2024-05-30 04:17:08 公開日:2024-05-28
# プレトレーニングとマルチタスクファインチューニングによるマルチモーダルプロンプトによるマスタリングロボット操作

Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning ( http://arxiv.org/abs/2310.09676v2 )

ライセンス: Link先を確認
Jiachen Li, Qiaozi Gao, Michael Johnston, Xiaofeng Gao, Xuehai He, Suhaila Shakiah, Hangjie Shi, Reza Ghanadan, William Yang Wang, (参考訳) プロンプトに基づく学習は、大規模言語モデルの素晴らしい成功(LLM)に寄与する魅力的なパラダイムとして実証されてきた。 言語タスクの成功に触発されて、既存の研究はLLMを具体的指導とタスクプランニングに活用してきた。 本研究では,ロボットにマルチモーダルなプロンプトを理解し,視覚信号にテキスト記述を組み込むことを課題とする。 このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。 本研究では,マルチタスクの専門家によるマルチモーダルプロンプトによるロボット操作のポリシーを学習する効果的なフレームワークを提案する。 本手法は,逆ダイナミクス事前学習とマルチタスク微調整を行う2段階の訓練パイプラインから構成される。 マルチモーダル理解を容易にするために,事前学習したLMを視覚入力に残差で拡張し,動作次元間の依存性をモデル化してマルチモーダルプロンプトエンコーダを設計する。 実験により,本手法のVIMA-BENCHに対する有効性を評価し,新たな最先端(10%の成功率向上)を確立した。 さらに,本モデルはテキスト内学習能力に優れることを示した。 プロジェクトページ: \url{https://midas-icml.github.io/}。

Prompt-based learning has been demonstrated as a compelling paradigm contributing to large language models' tremendous success (LLMs). Inspired by their success in language tasks, existing research has leveraged LLMs in embodied instruction following and task planning. In this work, we tackle the problem of training a robot to understand multimodal prompts, interleaving vision signals with text descriptions. This type of task poses a major challenge to robots' capability to understand the interconnection and complementarity between vision and language signals. In this work, we introduce an effective framework that learns a policy to perform robot manipulation with multimodal prompts from multi-task expert trajectories. Our methods consist of a two-stage training pipeline that performs inverse dynamics pretraining and multi-task finetuning. To facilitate multimodal understanding, we design our multimodal prompt encoder by augmenting a pretrained LM with a residual connection to the visual input and model the dependencies among action dimensions. Empirically, we evaluate the efficacy of our method on the VIMA-BENCH and establish a new state-of-the-art (10% improvement in success rate). Moreover, we demonstrate that our model exhibits remarkable in-context learning ability. Project page: \url{https://midas-icml.github.io/}.
翻訳日:2024-05-30 04:17:08 公開日:2024-05-28
# AutoDIR: 遅延拡散によるオールインワン画像の自動復元

AutoDIR: Automatic All-in-One Image Restoration with Latent Diffusion ( http://arxiv.org/abs/2310.10123v5 )

ライセンス: Link先を確認
Yitong Jiang, Zhaoyang Zhang, Tianfan Xue, Jinwei Gu, (参考訳) 本稿では,潜伏拡散を取り入れた画期的なオールインワン画像復元システムAutoDIRを提案する。 AutoDIRは、未知の劣化に苦しむ画像を自動的に識別し、復元する能力に優れています。 AutoDIRは直感的なオープン語彙の画像編集を提供し、ユーザーは好みに応じて画像をカスタマイズし、拡張することができる。 特に、AutoDIRは、入力画像の未知の画像劣化を自動的に検出する意味に依存しない視覚言語モデルに基づくブラインド画像品質評価(BIQA)ステージと、複数のタイプの画像劣化を処理する構造的補正された潜時拡散を利用するオールインワン画像復元(AIR)ステージの2つの主要なステージで構成されている。 大規模な実験的評価により、AutoDIRは幅広い画像復元タスクにおいて最先端のアプローチよりも優れていることが示された。 AutoDIRの設計は、(テキストプロンプトを介して)柔軟なユーザ制御と、画像復元の基礎モデルとしての新たなタスクへの一般化を可能にする。 プロジェクトは以下の通り。 \url{https://jiangyitong.github.io/AutoDIR_webpage/}。

We present AutoDIR, an innovative all-in-one image restoration system incorporating latent diffusion. AutoDIR excels in its ability to automatically identify and restore images suffering from a range of unknown degradations. AutoDIR offers intuitive open-vocabulary image editing, empowering users to customize and enhance images according to their preferences. Specifically, AutoDIR consists of two key stages: a Blind Image Quality Assessment (BIQA) stage based on a semantic-agnostic vision-language model which automatically detects unknown image degradations for input images, an All-in-One Image Restoration (AIR) stage utilizes structural-corrected latent diffusion which handles multiple types of image degradations. Extensive experimental evaluation demonstrates that AutoDIR outperforms state-of-the-art approaches for a wider range of image restoration tasks. The design of AutoDIR also enables flexible user control (via text prompt) and generalization to new tasks as a foundation model of image restoration. Project is available at: \url{https://jiangyitong.github.io/AutoDIR_webpage/}.
翻訳日:2024-05-30 04:17:08 公開日:2024-05-28
# 完全同型暗号化における効率的なプライベート推論のための最適層近似

Optimized Layerwise Approximation for Efficient Private Inference on Fully Homomorphic Encryption ( http://arxiv.org/abs/2310.10349v2 )

ライセンス: Link先を確認
Junghyun Lee, Eunsang Lee, Young-Sik Kim, Yongwoo Lee, Joon-Woo Lee, Yongjune Kim, Jong-Seon No, (参考訳) 近年の研究では、特にプライベート推論(PI)において、ホモモルフィック暗号化(HE)を利用したプライバシー保護型ディープニューラルネットワークの展開について検討されている。 多くの研究がPIにおける近似アウェアトレーニング(AAT)アプローチを試みており、モデルの活性化関数を、モデル再訓練を可能にしてHE上での計算が容易な低次多項式に変更している。 しかし, トレーニング環境における制約のため, 既存の平文モデルの事前学習パラメータを用いて, トレーニング後近似(PTA)を検討する必要がある場合が多い。 既存のPTA研究は、全ての層における活性化関数を高精度に近似し、近似による精度損失を軽減し、かなりの時間を消費している。 本研究では,PTAシナリオの各レイヤ毎に異なる近似多項式を用いて,精度損失と時間消費の両方を最適化する,最適化層近似(OLA)を提案する。 効率的な近似のために、最適化問題を構築しながら、各アクティベーション関数の実際の入力分布を考慮し、分類精度に対する階層的な影響を反映する。 さらに,最適化問題を解く動的プログラミング手法を提供し,多項式時間で最適化された階層次数を実現する。 その結果、OLA法は、一様次多項式を用いた従来の最先端実装と比較して、ResNet-20モデルとResNet-32モデルの推論時間をそれぞれ3.02倍と2.82倍に削減した。 さらに,CIFAR-10を,背骨モデルを変更することなく,CovNeXtモデルのGELU関数を3次多項式のみに置き換えることによって分類した。

Recent studies have explored the deployment of privacy-preserving deep neural networks utilizing homomorphic encryption (HE), especially for private inference (PI). Many works have attempted the approximation-aware training (AAT) approach in PI, changing the activation functions of a model to low-degree polynomials that are easier to compute on HE by allowing model retraining. However, due to constraints in the training environment, it is often necessary to consider post-training approximation (PTA), using the pre-trained parameters of the existing plaintext model without retraining. Existing PTA studies have uniformly approximated the activation function in all layers to a high degree to mitigate accuracy loss from approximation, leading to significant time consumption. This study proposes an optimized layerwise approximation (OLA), a systematic framework that optimizes both accuracy loss and time consumption by using different approximation polynomials for each layer in the PTA scenario. For efficient approximation, we reflect the layerwise impact on the classification accuracy by considering the actual input distribution of each activation function while constructing the optimization problem. Additionally, we provide a dynamic programming technique to solve the optimization problem and achieve the optimized layerwise degrees in polynomial time. As a result, the OLA method reduces inference times for the ResNet-20 model and the ResNet-32 model by 3.02 times and 2.82 times, respectively, compared to prior state-of-the-art implementations employing uniform degree polynomials. Furthermore, we successfully classified CIFAR-10 by replacing the GELU function in the ConvNeXt model with only 3-degree polynomials using the proposed method, without modifying the backbone model.
翻訳日:2024-05-30 04:17:08 公開日:2024-05-28
# 素早いエンジニアリングの可能性の解き放つ--総合的なレビュー

Unleashing the potential of prompt engineering: a comprehensive review ( http://arxiv.org/abs/2310.14735v3 )

ライセンス: Link先を確認
Banghao Chen, Zhaofeng Zhang, Nicolas Langrené, Shengxin Zhu, (参考訳) 本稿では,大規模言語モデル (LLMs) とマルチモーダル言語モデル (MMLMs) の領域において,プロンプトエンジニアリングの変革の可能性について考察する。 1950年代からニューラルネットワークやディープラーニングアーキテクチャの出現に至るまで、AIの開発は、GPT-4やBERTのような洗練されたLLM、DALL-EやCLIPのようなMMLMで頂点に達した。 これらのモデルは、職場の自動化、医療、教育といった様々な分野のタスクに革命をもたらした。 プロンプトエンジニアリングは、これらのモデルの実用性と精度を最大化する重要な技術として出現する。 本稿では,思考の連鎖,自己整合性,モデル性能を著しく向上させる生成知識など,素早い工学の基礎的手法と先進的手法について述べる。 さらに、マルチモーダル・プロンプト・ラーニング(MaPLe)、条件付きプロンプト・ラーニング(Conditional Prompt Learning)、コンテキスト最適化(Context Optimization)といった革新的なアプローチを通じて、マルチモーダル・データの統合を検討する。 この議論に批判的なのは、AIセキュリティの側面、特に迅速なエンジニアリングの脆弱性を悪用する敵攻撃である。 これらのリスクを軽減し、モデルの堅牢性を高めるための戦略が、徹底的にレビューされている。 プロンプト法の評価は主観的および客観的な指標の両方を通して行われ、その効果の堅牢な分析が保証される。 このレビューは、AI能力の進歩において、迅速なエンジニアリングが果たす重要な役割を強調し、将来の研究と応用のための構造化されたフレームワークを提供する。

This comprehensive review explores the transformative potential of prompt engineering within the realm of large language models (LLMs) and multimodal language models (MMLMs). The development of AI, from its inception in the 1950s to the emergence of neural networks and deep learning architectures, has culminated in sophisticated LLMs like GPT-4 and BERT, as well as MMLMs like DALL-E and CLIP. These models have revolutionized tasks in diverse fields such as workplace automation, healthcare, and education. Prompt engineering emerges as a crucial technique to maximize the utility and accuracy of these models. This paper delves into both foundational and advanced methodologies of prompt engineering, including techniques like Chain of Thought, Self-consistency, and Generated Knowledge, which significantly enhance model performance. Additionally, it examines the integration of multimodal data through innovative approaches such as Multi-modal Prompt Learning (MaPLe), Conditional Prompt Learning, and Context Optimization. Critical to this discussion is the aspect of AI security, particularly adversarial attacks that exploit vulnerabilities in prompt engineering. Strategies to mitigate these risks and enhance model robustness are thoroughly reviewed. The evaluation of prompt methods is addressed through both subjective and objective metrics, ensuring a robust analysis of their efficacy. This review underscores the pivotal role of prompt engineering in advancing AI capabilities, providing a structured framework for future research and application.
翻訳日:2024-05-30 04:17:08 公開日:2024-05-28
# 良いツールが作業の半分になる - ディープラーニングプロジェクトにおけるツールの使用

Good Tools are Half the Work: Tool Usage in Deep Learning Projects ( http://arxiv.org/abs/2310.19124v2 )

ライセンス: Link先を確認
Evangelia Panourgia, Theodoros Plessas, Ilias Balampanis, Diomidis Spinellis, (参考訳) ディープラーニング(DL)メソッドやテクニックの普及は、ディープラーニングソフトウェアへのソフトウェアエンジニアリング(SE)プラクティスの適用である、SE4DL(Software Engineering for Deep Learning)というトピックへの関心を高めている。 DLソフトウェアのデータ駆動型および非決定論的パラダイムによってもたらされる新しいエンジニアリング課題にもかかわらず、DLターゲットのSEツールの開発にはほとんど注がれていない。 一方、DL固有の非SE問題に対処するツールを積極的に使用し、「MLOps(Machine Learning Operations)ツール」という包括的な用語で参照する。 それでも、利用可能な文献は、DLソフトウェア開発における従来のSEツールの実用性をサポートしている。 オープンソースソフトウェア作業におけるツール使用に関するこれまでのマイニングソフトウェアリポジトリ(MSR)調査に基づいて、Pythonを主要なプログラミング言語として使用する一般的なDLプロジェクトで採用されている従来のMLOpsツールとMLOpsツールを特定した。 調査したGitHubリポジトリの約63%には、少なくとも1つの従来のSEツールが含まれていました。 ソフトウェア構築ツールは最も広く採用されていますが、その逆は管理ツールやメンテナンスツールにも当てはまります。 少なくとも1つのリポジトリで使用されている74のサンプルのうち、20のツールしか使用されていない。 その多くはプロプライエタリではなくオープンソースである。 これらのツールの1つであるTensorBoardは、我々の研究で約半数のリポジトリで採用されていることが判明した。 その結果,従来のSEツールの普及がDLソフトウェアとの関連性を示している。 MLOpsツールの採用、特定のツールタイプとの関連性、必要なツールの開発、すでに利用可能なツールの使用を促進する方法などについて、さらなる研究が推奨されている。

The rising popularity of deep learning (DL) methods and techniques has invigorated interest in the topic of SE4DL (Software Engineering for Deep Learning), the application of software engineering (SE) practices on deep learning software. Despite the novel engineering challenges brought on by the data-driven and non-deterministic paradigm of DL software, little work has been invested into developing DL-targeted SE tools. On the other hand, tools tackling non-SE issues specific to DL are actively used and referred to under the umbrella term "MLOps (Machine Learning Operations) tools". Nevertheless, the available literature supports the utility of conventional SE tooling in DL software development. Building upon previous mining software repositories (MSR) research on tool usage in open-source software works, we identify conventional and MLOps tools adopted in popular applied DL projects that use Python as the main programming language. About 63\% of the GitHub repositories we examined contained at least one conventional SE tool. Software construction tools are the most widely adopted, while the opposite applies to management and maintenance tools. Relatively few MLOps tools were found to be use, with only 20 tools out of a sample of 74 used in at least one repository. The majority of them were open-source rather than proprietary. One of these tools, TensorBoard, was found to be adopted in about half of the repositories in our study. Consequently, the widespread use of conventional SE tooling demonstrates its relevance to DL software. Further research is recommended on the adoption of MLOps tooling, focusing on the relevance of particular tool types, the development of required tools, as well as ways to promote the use of already available tools.
翻訳日:2024-05-30 04:17:08 公開日:2024-05-28
# Q条件付き状態エントロピー探索によるオフライン・オンライン強化学習の改善

Improving Offline-to-Online Reinforcement Learning with Q Conditioned State Entropy Exploration ( http://arxiv.org/abs/2310.19805v4 )

ライセンス: Link先を確認
Ziqi Zhang, Xiao Xiong, Zifeng Zhuang, Jinxin Liu, Donglin Wang, (参考訳) オフライン強化学習(RL)事前学習ポリシーを微調整する方法の研究は,RLアルゴリズムのサンプル効率を高める上で極めて重要である。 しかし、直接調整された事前訓練されたポリシーは、しばしば準最適性能をもたらす。 これは主に、オフラインの事前トレーニングとオンラインの微調整ステージの間の分散シフトによるものだ。 特に、分散シフトは効果的なオンラインサンプルの取得を制限し、最終的にはオンラインの微調整のパフォーマンスに影響を及ぼす。 オフラインとオンラインの段階間の分散シフトを狭めるため、本質的な報酬としてQ条件付き状態エントロピー(QCSE)を提案した。 具体的には、QCSEは各Q値を考慮して、全てのサンプルの状態エントロピーを個別に最大化する。 このアプローチは、高周波サンプルをペナルティ化しながら低周波サンプルの探索を奨励し、ステイトマージナルマッチング(SMM)を暗黙的に達成し、最適性能を確保し、制約に基づくアプローチの漸近的部分最適性を解決する。 さらに、QCSEは様々なRLアルゴリズムにシームレスに統合することができ、オンラインの微調整性能を向上させる。 当社の主張を検証するため、広範な実験を行い、QCSE(CQLでは約13%、Cal-QLでは8%)による大幅な改善を観察しています。 さらに,実験結果を他のアルゴリズムに拡張し,QCSEの汎用性を確認した。

Studying how to fine-tune offline reinforcement learning (RL) pre-trained policy is profoundly significant for enhancing the sample efficiency of RL algorithms. However, directly fine-tuning pre-trained policies often results in sub-optimal performance. This is primarily due to the distribution shift between offline pre-training and online fine-tuning stages. Specifically, the distribution shift limits the acquisition of effective online samples, ultimately impacting the online fine-tuning performance. In order to narrow down the distribution shift between offline and online stages, we proposed Q conditioned state entropy (QCSE) as intrinsic reward. Specifically, QCSE maximizes the state entropy of all samples individually, considering their respective Q values. This approach encourages exploration of low-frequency samples while penalizing high-frequency ones, and implicitly achieves State Marginal Matching (SMM), thereby ensuring optimal performance, solving the asymptotic sub-optimality of constraint-based approaches. Additionally, QCSE can seamlessly integrate into various RL algorithms, enhancing online fine-tuning performance. To validate our claim, we conduct extensive experiments, and observe significant improvements with QCSE (about 13% for CQL and 8% for Cal-QL). Furthermore, we extended experimental tests to other algorithms, affirming the generality of QCSE.
翻訳日:2024-05-30 04:17:08 公開日:2024-05-28
# BadLlama:Llama 2-Chat 13Bから安全性の微調整を安価に除去

BadLlama: cheaply removing safety fine-tuning from Llama 2-Chat 13B ( http://arxiv.org/abs/2311.00117v3 )

ライセンス: Link先を確認
Pranav Gade, Simon Lermen, Charlie Rogers-Smith, Jeffrey Ladish, (参考訳) Llama 2-ChatはMetaが開発・リリースした大規模な言語モデルのコレクションである。 メタはLlama 2-Chatを微調整して有害なコンテンツを出力することを拒んだが、我々はLlama 2-Chatの安全対策を安価に回避し、悪質な目的のためにLlama 2の能力を武器化するモデルウェイトへの公開アクセスが、悪質なアクターを安価に回避できるという仮説を立てた。 Llama 2-Chat 13Bから200ドル未満で安全性の微調整を効果的に解き放つことが可能であることを実証した。 本研究は, モデル重みが一般公開された場合の誤用防止に, 安全度調整が有効でないことを示すものである。 将来のモデルでは、大規模に害を与える能力が大幅に向上する可能性が高いため、モデルウェイトを公開リリースするかどうかを考える際には、AI開発者が微調整による脅威に対処することが不可欠である。

Llama 2-Chat is a collection of large language models that Meta developed and released to the public. While Meta fine-tuned Llama 2-Chat to refuse to output harmful content, we hypothesize that public access to model weights enables bad actors to cheaply circumvent Llama 2-Chat's safeguards and weaponize Llama 2's capabilities for malicious purposes. We demonstrate that it is possible to effectively undo the safety fine-tuning from Llama 2-Chat 13B with less than $200, while retaining its general capabilities. Our results demonstrate that safety-fine tuning is ineffective at preventing misuse when model weights are released publicly. Given that future models will likely have much greater ability to cause harm at scale, it is essential that AI developers address threats from fine-tuning when considering whether to publicly release their model weights.
翻訳日:2024-05-30 04:17:08 公開日:2024-05-28
# 制御可能なテキスト要約: 課題, アプローチ, 展望 - 調査-

Controllable Text Summarization: Unraveling Challenges, Approaches, and Prospects -- A Survey ( http://arxiv.org/abs/2311.09212v3 )

ライセンス: Link先を確認
Ashok Urlana, Pruthwik Mishra, Tathagato Roy, Rahul Mishra, (参考訳) ジェネリックテキスト要約アプローチは、個々のユーザの特定の意図やニーズに対処できないことが多い。 近年,特定の目的やユーザニーズに合わせて,より緊密に調整・制御された要約手法の開発に学術的注目が向けられている。 コントロール可能な要約研究のコーパスが増えているにもかかわらず、この文脈で使用される多様なコントロール可能な属性を徹底的に調査し、関連する課題を掘り下げ、既存のソリューションを調査する包括的な調査は行われていない。 本研究では、制御可能なテキスト要約(CTS)タスクを形式化し、それらの共有特性と目的に応じて制御可能な属性を分類し、各カテゴリにおける既存のデータセットとメソッドの徹底的な検証を行う。 さらに,本研究の結果から限界や研究のギャップを明らかにするとともに,CTSの潜在的な解決策や今後の方向性を探求する。 CTS論文の詳細な分析はhttps://github.com/ashokurlana/controllable_text_summarization_survey.comで公開しています。

Generic text summarization approaches often fail to address the specific intent and needs of individual users. Recently, scholarly attention has turned to the development of summarization methods that are more closely tailored and controlled to align with specific objectives and user needs. Despite a growing corpus of controllable summarization research, there is no comprehensive survey available that thoroughly explores the diverse controllable attributes employed in this context, delves into the associated challenges, and investigates the existing solutions. In this survey, we formalize the Controllable Text Summarization (CTS) task, categorize controllable attributes according to their shared characteristics and objectives, and present a thorough examination of existing datasets and methods within each category. Moreover, based on our findings, we uncover limitations and research gaps, while also exploring potential solutions and future directions for CTS. We release our detailed analysis of CTS papers at https://github.com/ashokurlana/controllable_text_summarization_survey.
翻訳日:2024-05-30 04:07:24 公開日:2024-05-28
# 潜在空間探索を用いたポリシー適応による組合せ最適化

Combinatorial Optimization with Policy Adaptation using Latent Space Search ( http://arxiv.org/abs/2311.13569v2 )

ライセンス: Link先を確認
Felix Chalumeau, Shikha Surana, Clement Bonnet, Nathan Grinsztajn, Arnu Pretorius, Alexandre Laterre, Thomas D. Barrett, (参考訳) Combinatorial Optimizationは多くの現実世界のアプリケーションを支えるが、これらの複雑なNPハードを解くために高性能なアルゴリズムを設計することは、依然として重要な研究課題である。 強化学習(RL)は、幅広い問題領域にわたるヒューリスティックを設計するための汎用的なフレームワークを提供する。 しかし、顕著な進歩にもかかわらず、RLは産業用解決器をGo-toソリューションとして置き換えていない。 現在のアプローチでは、ソリューションを構築するが、単一のポリシーから多数のソリューションを確率的にサンプリングしたり、個々の問題インスタンスに対して計算的に高価な微調整を施したりといった、限定的な分散を伴う探索手順に頼っている事前学習ヒューリスティックが強調されている。 提案手法は,事前学習中に推論時間における性能的探索を期待する直観に基づいて,連続的な潜在空間上で条件付けられた多様かつ専門的なポリシーの分布をパラメータ化する新しいRL手法であるCompASSを提案する。 トラベリングセールスマン、キャパシタンドカールーティング、ジョブショップスケジューリングの3つの標準問題におけるCompASSを評価し、検索戦略を実証する。 (i)11の標準ベンチマークタスクと最先端のアプローチを上回ります。 (ii) は、手続き的に変換された18のインスタンス分布の集合上で、他のすべてのアプローチを上回り、より良く一般化する。

Combinatorial Optimization underpins many real-world applications and yet, designing performant algorithms to solve these complex, typically NP-hard, problems remains a significant research challenge. Reinforcement Learning (RL) provides a versatile framework for designing heuristics across a broad spectrum of problem domains. However, despite notable progress, RL has not yet supplanted industrial solvers as the go-to solution. Current approaches emphasize pre-training heuristics that construct solutions but often rely on search procedures with limited variance, such as stochastically sampling numerous solutions from a single policy or employing computationally expensive fine-tuning of the policy on individual problem instances. Building on the intuition that performant search at inference time should be anticipated during pre-training, we propose COMPASS, a novel RL approach that parameterizes a distribution of diverse and specialized policies conditioned on a continuous latent space. We evaluate COMPASS across three canonical problems - Travelling Salesman, Capacitated Vehicle Routing, and Job-Shop Scheduling - and demonstrate that our search strategy (i) outperforms state-of-the-art approaches on 11 standard benchmarking tasks and (ii) generalizes better, surpassing all other approaches on a set of 18 procedurally transformed instance distributions.
翻訳日:2024-05-30 04:07:24 公開日:2024-05-28
# スパンニングトレーニングの進歩: 拡張データセット・プルーニングのための時間的デュアルディープ・スコーリング(TDDS)

Spanning Training Progress: Temporal Dual-Depth Scoring (TDDS) for Enhanced Dataset Pruning ( http://arxiv.org/abs/2311.13613v3 )

ライセンス: Link先を確認
Xin Zhang, Jiawei Du, Yunsong Li, Weiying Xie, Joey Tianyi Zhou, (参考訳) Dataset pruningは、オリジナルの完全なデータセットに匹敵するパフォーマンスを達成可能なコアセットを構築することを目的としている。 既存のデータセットプルーニング手法の多くは、代表サンプルを特定するためにスナップショットベースの基準に依存しており、多くの場合、様々なプルーニングやクロスアーキテクチャシナリオの一般化が不十分である。 近年の研究では、平均的アプローチを用いて、出来事や確率変化を忘れるなどの要因を含む、トレーニングダイナミクスを考慮に入れた範囲を広げることによって、この問題に対処している。 しかし、これらの研究は、十分に一般化されたサンプルを見渡すことなく、より広い範囲のトレーニングダイナミクスを統合するのに苦労している。 本研究では,この問題に対処するため,時間的デュアル・ディープス・スコアリング(TDDS)と呼ばれる新しいデータセット・プルーニング手法を提案する。 TDDSは、広範なトレーニングのダイナミクスを取り入れることと、データセットのプルーニングに代表されるサンプルを特定することのバランスを達成するために、二重深度戦略を利用する。 第1の深さでは、トレーニングの進捗にまたがる各サンプルの個々のコントリビューションのシリーズを推定し、トレーニングダイナミクスの総合的な統合を保証する。 第2の深さでは,第1の深さで同定されたサンプルワイド・コントリビューションの多様性に着目し,よく一般化されたサンプルをハイライトする。 CIFARとImageNetデータセットで実施された大規模な実験は、従来のSOTAメソッドよりもTDDSの優位性を検証する。 具体的には, CIFAR-100では, 10%のトレーニングデータで54.51%の精度を達成し, ランダム選択を7.83%以上, 比較手法を12.69%以上とした。

Dataset pruning aims to construct a coreset capable of achieving performance comparable to the original, full dataset. Most existing dataset pruning methods rely on snapshot-based criteria to identify representative samples, often resulting in poor generalization across various pruning and cross-architecture scenarios. Recent studies have addressed this issue by expanding the scope of training dynamics considered, including factors such as forgetting event and probability change, typically using an averaging approach. However, these works struggle to integrate a broader range of training dynamics without overlooking well-generalized samples, which may not be sufficiently highlighted in an averaging manner. In this study, we propose a novel dataset pruning method termed as Temporal Dual-Depth Scoring (TDDS), to tackle this problem. TDDS utilizes a dual-depth strategy to achieve a balance between incorporating extensive training dynamics and identifying representative samples for dataset pruning. In the first depth, we estimate the series of each sample's individual contributions spanning the training progress, ensuring comprehensive integration of training dynamics. In the second depth, we focus on the variability of the sample-wise contributions identified in the first depth to highlight well-generalized samples. Extensive experiments conducted on CIFAR and ImageNet datasets verify the superiority of TDDS over previous SOTA methods. Specifically on CIFAR-100, our method achieves 54.51% accuracy with only 10% training data, surpassing random selection by 7.83% and other comparison methods by at least 12.69%.
翻訳日:2024-05-30 04:07:24 公開日:2024-05-28
# Vamos:ビデオ理解のためのVersatile Action Model

Vamos: Versatile Action Models for Video Understanding ( http://arxiv.org/abs/2311.13627v2 )

ライセンス: Link先を確認
Shijie Wang, Qi Zhao, Minh Quan Do, Nakul Agarwal, Kwonjoon Lee, Chen Sun, (参考訳) 将来の活動を見越したり、ビデオ条件の質問に答えたりするなど、ビデオ理解によい表現は何だろうか? 従来,ビデオ画素から直接のエンド・ツー・エンドの学習に焦点が当てられていたが,大容量の言語モデル(LLM)で直接使用可能な汎用ビデオキャプションなど,テキストベースの表現の再検討を提案する。 直感的には、異なるビデオ理解タスクは相補的で異なる粒度の表現を必要とするかもしれない。 この目的のために我々は,大規模な言語モデルを用いた学習フレームワークである多目的行動モデル(Vamos)を提案し,その入力として視覚的埋め込みや自由形式のテキスト記述を柔軟に活用することができる。 質問応答のための重要なテキストエビデンスを解釈するために,トークンや非線形モデルを扱うために,概念ボトルネックモデルを一般化し,自由形式のテキストからトークンの小さなサブセットをLSM推論器への入力として選択する。 Ego4D,NeXT-QA,IntentQA,EgoSchemaの4つの相補的ビデオ理解ベンチマークを用いてVamosの評価を行い,時間的ダイナミクスをモデル化し,視覚履歴をエンコードし,推論を行う能力について検討した。 驚くべきことに、テキストベースの表現は全てのベンチマークにおいて一貫して競争性能を達成し、視覚的な埋め込みは、LLM時代のテキストベースのビデオ表現の有効性を実証し、限界的あるいは全くのパフォーマンス向上をもたらす。 また, トークンボトルネックモデルにより, フリーフォームテキストから関連する証拠を抽出し, テスト時間介入をサポートし, 競合する質問応答性能を維持しながら, ほぼ5倍の推論高速化を実現できることを実証した。 コードとモデルはhttps://brown-palm.github.io/Vamos/.comで公開されている。

What makes good representations for video understanding, such as anticipating future activities, or answering video-conditioned questions? While earlier approaches focus on end-to-end learning directly from video pixels, we propose to revisit text-based representations, such as general-purpose video captions, which are interpretable and can be directly consumed by large language models (LLMs). Intuitively, different video understanding tasks may require representations that are complementary and at different granularity. To this end, we propose versatile action models (Vamos), a learning framework powered by a large language model as the ``reasoner'', and can flexibly leverage visual embedding and free-form text descriptions as its input. To interpret the important text evidence for question answering, we generalize the concept bottleneck model to work with tokens and nonlinear models, which uses hard attention to select a small subset of tokens from the free-form text as inputs to the LLM reasoner. We evaluate Vamos on four complementary video understanding benchmarks, Ego4D, NeXT-QA, IntentQA, and EgoSchema, on its capability to model temporal dynamics, encode visual history, and perform reasoning. Surprisingly, we observe that text-based representations consistently achieve competitive performance on all benchmarks, and that visual embeddings provide marginal or no performance improvement, demonstrating the effectiveness of text-based video representation in the LLM era. We also demonstrate that our token bottleneck model is able to select relevant evidence from free-form text, support test-time intervention, and achieves nearly 5 times inference speedup while keeping a competitive question answering performance. Code and models are publicly released at https://brown-palm.github.io/Vamos/.
翻訳日:2024-05-30 04:07:24 公開日:2024-05-28
# 説明可能なAIによる美的嗜好の要因の解明

Unveiling The Factors of Aesthetic Preferences with Explainable AI ( http://arxiv.org/abs/2311.14410v2 )

ライセンス: Link先を確認
Derya Soydaner, Johan Wagemans, (参考訳) 画像における審美的魅力の魅力は、私たちの感覚を魅了するが、審美的嗜好の根底にある複雑さは、いまだ解明されていない。 本研究では,嗜好に影響を与えることで知られる美的属性に焦点をあてた,機械学習(ML)モデルを活用することによって,新たな視点を開拓する。 我々のモデルはこれらの属性を入力として処理し、画像の美的スコアを予測する。 さらに,美的嗜好の要因を深く掘り下げ,解釈可能な説明を得るためには,SHAP(SHapley Additive exPlanations)として知られる一般的な説明可能なAI(XAI)技術を利用する。 本手法は,ランダムフォレスト,XGBoost,サポートベクトル回帰,マルチレイヤパーセプトロンなどのMLモデルの性能を比較し,美的スコアを正確に予測し,SHAPと協調して結果を一貫して観察する。 Aesthetics with Attributes Database(AADB)、Explainable Visual Aesthetics(EVA)、Personalized Image Aesthetics Database with Rich Attributes(PARA)の3つの画像美的ベンチマークを実施。 最後に,XAIの導入とともに,美学研究のためのMLモデルを提案する。 本研究の目的は,画像における審美的嗜好の複雑な性質をMLを通して明らかにし,審美的判断に影響を及ぼす属性についてより深く理解することである。

The allure of aesthetic appeal in images captivates our senses, yet the underlying intricacies of aesthetic preferences remain elusive. In this study, we pioneer a novel perspective by utilizing several different machine learning (ML) models that focus on aesthetic attributes known to influence preferences. Our models process these attributes as inputs to predict the aesthetic scores of images. Moreover, to delve deeper and obtain interpretable explanations regarding the factors driving aesthetic preferences, we utilize the popular Explainable AI (XAI) technique known as SHapley Additive exPlanations (SHAP). Our methodology compares the performance of various ML models, including Random Forest, XGBoost, Support Vector Regression, and Multilayer Perceptron, in accurately predicting aesthetic scores, and consistently observing results in conjunction with SHAP. We conduct experiments on three image aesthetic benchmarks, namely Aesthetics with Attributes Database (AADB), Explainable Visual Aesthetics (EVA), and Personalized image Aesthetics database with Rich Attributes (PARA), providing insights into the roles of attributes and their interactions. Finally, our study presents ML models for aesthetics research, alongside the introduction of XAI. Our aim is to shed light on the complex nature of aesthetic preferences in images through ML and to provide a deeper understanding of the attributes that influence aesthetic judgements.
翻訳日:2024-05-30 04:07:24 公開日:2024-05-28
# SCHEME:視覚変換器用スケーラブルチャネルミキサー

SCHEME: Scalable Channel Mixer for Vision Transformers ( http://arxiv.org/abs/2312.00412v3 )

ライセンス: Link先を確認
Deepak Sridhar, Yunsheng Li, Nuno Vasconcelos, (参考訳) ビジョントランスフォーマーは多くの視覚タスクにおいて印象的なパフォーマンスを達成した。 トークンミキサー(トークンミキサー)やアテンションブロック(アテンションブロック)は、非常に詳細に研究されているが、モデルパラメータや計算のかなりの部分を占めるチャネルミキサーや機能ミキシングブロック(FFNまたはMLP)に、はるかに少ない研究がなされている。 本研究では,高密度MLP接続をブロック対角 MLP 構造に置き換えることにより,MLP の特徴をグループに分割することで,より大きな拡張比をサポートすることを示す。 この構造によって形成される特徴クラスタを改善するために,トレーニング中に並列ブランチとして,軽量でパラメータフリーなチャネル共分散アテンション(CCA)機構を提案する。 これにより、トレーニングが収束するにつれてコントリビューションがゼロになる訓練中、チャネルグループ間の段階的な特徴混合が可能になる。 これにより、推論中にCCAブロックを破棄することができ、追加の計算コストを伴わずに性能を向上させることができる。 結果として生じる$\textit{Scalable CHannEl MixEr}$ (SCHEME) は任意の ViT アーキテクチャにプラグインされ、ブロック対角 MLP 構造を制御することで複雑性と性能のトレードオフが異なるモデルのガムが得られる。 これはSCHEMEformerモデルの新しいファミリーの導入によって示される。 画像分類、オブジェクト検出、セマンティックセグメンテーション(セグメンテーション)の実験は、ViTのバックボーンが異なるが、既存の設計、特により低い複雑さのレシエーションに対して、一貫して精度が向上することを示した。 SCHEMEformerファミリは、精度対FLOPS、精度対モデルサイズ、精度対スループット、特に小型の高速トランスフォーマーのための新しいParetoフロンティアを確立することが示されている。

Vision Transformers have achieved impressive performance in many vision tasks. While the token mixer or attention block has been studied in great detail, much less research has been devoted to the channel mixer or feature mixing block (FFN or MLP), which accounts for a significant portion of of the model parameters and computation. In this work, we show that the dense MLP connections can be replaced with a block diagonal MLP structure that supports larger expansion ratios by splitting MLP features into groups. To improve the feature clusters formed by this structure we propose the use of a lightweight, parameter-free, channel covariance attention (CCA) mechanism as a parallel branch during training. This enables gradual feature mixing across channel groups during training whose contribution decays to zero as the training progresses to convergence. In result, the CCA block can be discarded during inference, enabling enhanced performance at no additional computational cost. The resulting $\textit{Scalable CHannEl MixEr}$ (SCHEME) can be plugged into any ViT architecture to obtain a gamut of models with different trade-offs between complexity and performance by controlling the block diagonal MLP structure. This is shown by the introduction of a new family of SCHEMEformer models. Experiments on image classification, object detection, and semantic segmentation, with different ViT backbones, consistently demonstrate substantial accuracy gains over existing designs, especially for lower complexity regimes. The SCHEMEformer family is shown to establish new Pareto frontiers for accuracy vs FLOPS, accuracy vs model size, and accuracy vs throughput, especially for fast transformers of small size.
翻訳日:2024-05-30 04:07:24 公開日:2024-05-28
# 量子スピン系のWehrlエントロピーと絡み合い複素性

Wehrl Entropy and Entanglement Complexity of Quantum Spin Systems ( http://arxiv.org/abs/2312.00611v2 )

ライセンス: Link先を確認
Chen Xu, Yiqi Yu, Peng Zhang, (参考訳) 量子状態のWehrlエントロピー (Wehrl entropy) はコヒーレント状態分布関数 (Husimi function) のエントロピーであり、純粋状態に対してもゼロではない。 我々は、SU(2)$^{\otimes N}$コヒーレント状態(すなわち各粒子のスピンコヒーレント状態の直積)に関して、$N$スピン-1/2粒子に対するWehrlエントロピーについて検討する。 1)このWehrlエントロピーの統計的解釈。 2)Wehrlエントロピーと量子エンタングルメントの関係 (1) に対して、コヒーレントな状態が正規直交基底群を成さないにもかかわらず、Wehrlエントロピーは依然として明確な物理的意味を持つ確率分布のエントロピーとして解釈可能であることを証明している。 2) では, 粒子数 2\leq N\leq 20$ の様々な絡み合った純状態のWehrlエントロピーを数値計算する。 以上の結果から,大額N$ (N\gtrsim 10$) のシステムでは,高カオスな絡み合った状態のWehrlエントロピーは通常の状態(例えばGHZ状態)よりもはるかに大きいことがわかった。 これらの結果は、Wehrlエントロピーが局所ユニタリ変換の下で不変であるという事実と相まって、Wehrlエントロピーは、Husimi関数とWehrlエントロピー(Jour)の定義から直接A. Sugitaが提唱したように、多体純状態の量子絡み合い(絡み合いの複雑さ)の複雑さを反映できることを示している。 Phys 第36巻9081号(2003年)。 さらに、粒子ごとのWehrlエントロピーは、この複雑さの定量的な記述として機能する。 さらに、多体純絡状態は、粒子当たりのWehrlエントロピーの振舞いにより、それぞれ異なる絡み合い複雑性を持つ極限$N\rightarrow\infty$の3つの型に分類できることを示す。

The Wehrl entropy of a quantum state is the entropy of the coherent-state distribution function (Husimi function), and is non-zero even for pure states. We investigate the Wehrl entropy for $N$ spin-1/2 particles with respect to SU(2)$^{\otimes N}$ coherent states (i.e., the direct products of spin coherent states of each particle). We focus on: (1) The statistical interpretation of this Wehrl entropy. (2) The relationship between the Wehrl entropy and quantum entanglement. For (1), despite the coherent states not forming a group of orthonormal bases, we prove that the Wehrl entropy can still be interpreted as the entropy of a probability distribution with clear physical meaning. For (2), we numerically calculate the Wehrl entropy of various entangled pure states with particle number $2\leq N\leq 20$. Our results show that for the large-$N$ ($N\gtrsim 10$) systems the Wehrl entropy of the highly chaotic entangled states are much larger than that of the regular ones (e.g., the GHZ state). These results, together with the fact that the Wehrl entropy is invariant under local unitary transformations, indicate that the Wehrl entropy can reflect the complexity of the quantum entanglement (entanglement complexity) of many-body pure states, as A. Sugita proposed directly from the definitions of the Husimi function and Wehrl entropy (Jour. Phys. A 36, 9081 (2003)). Furthermore, the Wehrl entropy per particle can serve as a quantitative description of this complexity. We further show that the many-body pure entangled states can be classified into three types, according to the behaviors of the Wehrl entropy per particle in the limit $N\rightarrow\infty$, with the states of each type having very different entanglement complexity.
翻訳日:2024-05-30 04:07:24 公開日:2024-05-28
# SAMSGL:時空間予測のための連続型マルチスケールグラフ学習

SAMSGL: Series-Aligned Multi-Scale Graph Learning for Spatio-Temporal Forecasting ( http://arxiv.org/abs/2312.02646v3 )

ライセンス: Link先を確認
Xiaobei Zou, Luolin Xiong, Yang Tang, Jürgen Kurths, (参考訳) 交通予報や天気予報のような各領域の時空間予測は、主に伝播ダイナミクスのモデル化とノード間の高次元相互作用の取得が困難であるため、困難な取り組みである。 時空間予測におけるグラフベースのネットワークによる大きな進歩にもかかわらず、さらなる考慮を必要とする予測性能に密接に関連している2つの重要な要因は、伝搬力学における時間遅延とマルチスケールの高次元相互作用である。 本研究では,予測性能の向上を目的として,SGL(Series-Aligned Multi-Scale Graph Learning)フレームワークを提案する。 空間的相互作用における時間遅延を処理するために,非遅延グラフ信号の集約を容易にする一連のグラフ畳み込み層を提案する。 グローバルな時空間相互作用と局所的な時空間相互作用を理解するために,マルチスケールグラフ学習とグラフ完全連結(Graph-FC)ブロックという,2つの重要な要素を含む時空間アーキテクチャを開発した。 マルチスケールグラフ構造学習は、遅延ノード埋め込みと非遅延ノード埋め込みの両方を学習するグローバルグラフ構造と、隣接する要因に影響されるノード変動を学習するローカルグラフ構造を含む。 Graph-FCは、空間情報と時間情報を相乗的に融合して予測精度を高める。 SAMSGLの性能を評価するため,気象・交通予測データセットの実験を行い,その有効性と優位性を示す。

Spatio-temporal forecasting in various domains, like traffic prediction and weather forecasting, is a challenging endeavor, primarily due to the difficulties in modeling propagation dynamics and capturing high-dimensional interactions among nodes. Despite the significant strides made by graph-based networks in spatio-temporal forecasting, there remain two pivotal factors closely related to forecasting performance that need further consideration: time delays in propagation dynamics and multi-scale high-dimensional interactions. In this work, we present a Series-Aligned Multi-Scale Graph Learning (SAMSGL) framework, aiming to enhance forecasting performance. In order to handle time delays in spatial interactions, we propose a series-aligned graph convolution layer to facilitate the aggregation of non-delayed graph signals, thereby mitigating the influence of time delays for the improvement in accuracy. To understand global and local spatio-temporal interactions, we develop a spatio-temporal architecture via multi-scale graph learning, which encompasses two essential components: multi-scale graph structure learning and graph-fully connected (Graph-FC) blocks. The multi-scale graph structure learning includes a global graph structure to learn both delayed and non-delayed node embeddings, as well as a local one to learn node variations influenced by neighboring factors. The Graph-FC blocks synergistically fuse spatial and temporal information to boost prediction accuracy. To evaluate the performance of SAMSGL, we conduct experiments on meteorological and traffic forecasting datasets, which demonstrate its effectiveness and superiority.
翻訳日:2024-05-30 04:07:24 公開日:2024-05-28
# 一般化二元回路における量子情報拡散

Quantum information spreading in generalised dual-unitary circuits ( http://arxiv.org/abs/2312.02940v2 )

ライセンス: Link先を確認
Alessandro Foligno, Pavel Kos, Bruno Bertini, (参考訳) 本稿では,最近導入された,双対ユニタリクラスを一般化したブリックワーク量子回路群における量子情報の拡散について検討する。 これらの回路は時間的にユニタリであり、空間力学は制限された部分空間でのみユニタリである。 まず, 局所演算子は, 二重単位回路のように光速で拡散し, 蝶の速度は回路の幾何学的に許容される最大値を取ることを示す。 そして、この絡み合いの広がりは、相反する初期状態の族(実際、双対ユニタリ回路の相反する族の拡張のために)に対して正確に特徴づけられ、漸近的絡み合い勾配が再びR'enyi指数に独立であることを証明する。 しかし、注目すべきは、絡み合い速度が1より総じて小さいことである。 これらの特性を用いて、回路内の絡み合い膜に対する閉形式表現を求める。

We study the spreading of quantum information in a recently introduced family of brickwork quantum circuits that generalises the dual-unitary class. These circuits are unitary in time, while their spatial dynamics is unitary only in a restricted subspace. First, we show that local operators spread at the speed of light as in dual-unitary circuits, i.e., the butterfly velocity takes the maximal value allowed by the geometry of the circuit. Then, we prove that the entanglement spreading can still be characterised exactly for a family of compatible initial states (in fact, for an extension of the compatible family of dual-unitary circuits) and that the asymptotic entanglement slope is again independent on the R\'enyi index. Remarkably, however, we find that the entanglement velocity is generically smaller than one. We use these properties to find a closed-form expression for the entanglement membrane in these circuits.
翻訳日:2024-05-30 04:07:24 公開日:2024-05-28
# 超限定データを用いたICFシミュレーション実験ギャップを閉鎖する変圧器駆動サロゲート

Transformer-Powered Surrogates Close the ICF Simulation-Experiment Gap with Extremely Limited Data ( http://arxiv.org/abs/2312.03642v2 )

ライセンス: Link先を確認
Matthew L. Olson, Shusen Liu, Jayaraman J. Thiagarajan, Bogdan Kustowski, Weng-Keen Wong, Rushil Anirudh, (参考訳) 機械学習、特にトランスフォーマーアーキテクチャの最近の進歩は、商業領域において大きな進歩をもたらした。 これらの強力なモデルは、複雑な関係を学習し、しばしば新しいデータや問題により良い一般化を行う優れた能力を示している。 本稿では,シミュレーションデータでスパース実験データを補足するマルチモーダル出力シナリオにおいて,予測精度を向上させるためのトランスフォーマーを用いた新しい手法を提案する。 提案手法はトランスフォーマーアーキテクチャと新しいグラフベースハイパーパラメータ最適化手法を統合する。 その結果,シミュレーションバイアスを効果的に低減するだけでなく,従来の手法と比較して予測精度も向上する。 実世界のデータ10枚と,これらの実験の合成版が利用可能である慣性閉じ込め核融合実験に対する我々のアプローチの有効性を実証する。

Recent advances in machine learning, specifically transformer architecture, have led to significant advancements in commercial domains. These powerful models have demonstrated superior capability to learn complex relationships and often generalize better to new data and problems. This paper presents a novel transformer-powered approach for enhancing prediction accuracy in multi-modal output scenarios, where sparse experimental data is supplemented with simulation data. The proposed approach integrates transformer-based architecture with a novel graph-based hyper-parameter optimization technique. The resulting system not only effectively reduces simulation bias, but also achieves superior prediction accuracy compared to the prior method. We demonstrate the efficacy of our approach on inertial confinement fusion experiments, where only 10 shots of real-world data are available, as well as synthetic versions of these experiments.
翻訳日:2024-05-30 04:07:24 公開日:2024-05-28
# 楽しいガウスのコーデックアバター

Relightable Gaussian Codec Avatars ( http://arxiv.org/abs/2312.03704v2 )

ライセンス: Link先を確認
Shunsuke Saito, Gabriel Schwartz, Tomas Simon, Junxuan Li, Giljoo Nam, (参考訳) リライティングの忠実さは、幾何学的表現と外見的表現の両方によって境界づけられている。 幾何学において、メッシュと体積のアプローチは3次元ヘア幾何学のような複雑な構造をモデル化することが困難である。 外観上、既存のリライトモデルは忠実度に制限されており、高解像度の連続環境でリアルタイムにレンダリングするには遅すぎることが多い。 本研究では,新しい表現を生成するためにアニメーション可能な高忠実なヘッドアバターを構築する手法であるRelightable Gaussian Codec Avatarsを提案する。 3次元ガウシアンに基づく幾何学モデルは、動的顔列上のヘアストランドや細孔などの3次元一貫性のあるサブミリ細部を捉えることができる。 目,皮膚,毛髪などの頭部の多様な材料を統一的に支援するために,学習可能な放射率伝達に基づく新しい可照性外見モデルを提案する。 拡散成分に対するグローバル照明対応球面高調波とともに、球面ガウスを用いた全周波数反射によるリアルタイムリライティングを実現する。 この外観モデルは点灯と連続照明の両方で効率よく信頼することができる。 我々は、視線反射の忠実度をさらに向上し、光沢のある視線モデルを導入することにより、視線制御を可能にする。 提案手法は,リアルタイム性能を損なうことなく既存の手法より優れている。 また、テザリングされた消費者向けVRヘッドセット上でアバターをリアルタイムにリライトし、アバターの効率性と忠実さを示します。

The fidelity of relighting is bounded by both geometry and appearance representations. For geometry, both mesh and volumetric approaches have difficulty modeling intricate structures like 3D hair geometry. For appearance, existing relighting models are limited in fidelity and often too slow to render in real-time with high-resolution continuous environments. In this work, we present Relightable Gaussian Codec Avatars, a method to build high-fidelity relightable head avatars that can be animated to generate novel expressions. Our geometry model based on 3D Gaussians can capture 3D-consistent sub-millimeter details such as hair strands and pores on dynamic face sequences. To support diverse materials of human heads such as the eyes, skin, and hair in a unified manner, we present a novel relightable appearance model based on learnable radiance transfer. Together with global illumination-aware spherical harmonics for the diffuse components, we achieve real-time relighting with all-frequency reflections using spherical Gaussians. This appearance model can be efficiently relit under both point light and continuous illumination. We further improve the fidelity of eye reflections and enable explicit gaze control by introducing relightable explicit eye models. Our method outperforms existing approaches without compromising real-time performance. We also demonstrate real-time relighting of avatars on a tethered consumer VR headset, showcasing the efficiency and fidelity of our avatars.
翻訳日:2024-05-30 04:07:24 公開日:2024-05-28
# KOALA:テキスト・画像合成のためのメモリ効率・高速拡散モデルに関する実証授業

KOALA: Empirical Lessons Toward Memory-Efficient and Fast Diffusion Models for Text-to-Image Synthesis ( http://arxiv.org/abs/2312.04005v2 )

ライセンス: Link先を確認
Youngwan Lee, Kwanyong Park, Yoorhim Cho, Yong-Ju Lee, Sung Ju Hwang, (参考訳) テキスト・ツー・イメージ(T2I)合成モデルのサイズが大きくなるにつれて、より大きなメモリを持つより高価なGPUを必要とするため、より高い推論コストが要求されるため、トレーニングデータセットへのアクセス制限に加えて、これらのモデルを再現することは困難である。 本研究の目的は,これらの推論コストを削減し,利用可能なデータセットとオープンソースモデルのみを使用して,T2Iモデルの生成能力をどの程度拡張できるかを検討することである。 この目的のために,本研究では,SDXL (Stable Diffusion XL) のデファクトスタンダードを用いて,効率的なT2Iモデルを構築するための3つの重要なプラクティスについて述べる。 2)データ: サンプルが少ないにもかかわらず, リッチキャプションの高解像度画像は, 短いキャプションの高解像度画像よりも重要であった。 (3)教師: ステップ蒸留教師は、T2Iモデルにノイズ発生ステップの低減を許可する。 これらの結果をもとに,2種類のコンパクトなU-Net (1B, 700M), SDXL U-Netの最大54%と69%の削減を実現した,KOALA-Turbo &-Lightningという2種類の効率的なテキスト・ツー・イメージ・モデルを構築した。 特にKoALA-Lightning-700MはSDXLより4倍高速で、良好な生成品質を維持している。 さらに、SDXLとは異なり、私たちのKOALAモデルは8GBのVRAM(3060Ti)を持つコンシューマグレードGPU上で1024pxの高解像度画像を生成することができる。 我々は,我々のKOALAモデルが,資源制約環境におけるSDXLの費用対効果に優れた代替手段となると信じている。

As text-to-image (T2I) synthesis models increase in size, they demand higher inference costs due to the need for more expensive GPUs with larger memory, which makes it challenging to reproduce these models in addition to the restricted access to training datasets. Our study aims to reduce these inference costs and explores how far the generative capabilities of T2I models can be extended using only publicly available datasets and open-source models. To this end, by using the de facto standard text-to-image model, Stable Diffusion XL (SDXL), we present three key practices in building an efficient T2I model: (1) Knowledge distillation: we explore how to effectively distill the generation capability of SDXL into an efficient U-Net and find that self-attention is the most crucial part. (2) Data: despite fewer samples, high-resolution images with rich captions are more crucial than a larger number of low-resolution images with short captions. (3) Teacher: Step-distilled Teacher allows T2I models to reduce the noising steps. Based on these findings, we build two types of efficient text-to-image models, called KOALA-Turbo &-Lightning, with two compact U-Nets (1B & 700M), reducing the model size up to 54% and 69% of the SDXL U-Net. In particular, the KOALA-Lightning-700M is 4x faster than SDXL while still maintaining satisfactory generation quality. Moreover, unlike SDXL, our KOALA models can generate 1024px high-resolution images on consumer-grade GPUs with 8GB of VRAMs (3060Ti). We believe that our KOALA models will have a significant practical impact, serving as cost-effective alternatives to SDXL for academic researchers and general users in resource-constrained environments.
翻訳日:2024-05-30 04:07:24 公開日:2024-05-28
# グラフ畳み込みはトランスフォーマーの自己意識を豊かにする!

Graph Convolutions Enrich the Self-Attention in Transformers! ( http://arxiv.org/abs/2312.04234v3 )

ライセンス: Link先を確認
Jeongwhan Choi, Hyowon Wi, Jayoung Kim, Yehjin Shin, Kookjin Lee, Nathaniel Trask, Noseong Park, (参考訳) トランスフォーマーは自己認識機構で知られており、自然言語処理、コンピュータビジョン、時系列モデリングなど様々なタスクで最先端のパフォーマンスを実現している。 しかし、Deep Transformerモデルの課題の1つは、レイヤ間の表現が区別できない値に収束し、パフォーマンスが著しく低下するという過度な問題である。 本稿では,従来の自己アテンションを単純なグラフフィルタとして解釈し,グラフ信号処理(GSP)の観点から再設計する。 本稿では,グラフフィルタに基づく自己注意法(GFSA)を提案する。 GFSAはコンピュータビジョン,自然言語処理,グラフ回帰,音声認識,コード分類など,様々な分野におけるトランスフォーマーの性能向上を実証する。

Transformers, renowned for their self-attention mechanism, have achieved state-of-the-art performance across various tasks in natural language processing, computer vision, time-series modeling, etc. However, one of the challenges with deep Transformer models is the oversmoothing problem, where representations across layers converge to indistinguishable values, leading to significant performance degradation. We interpret the original self-attention as a simple graph filter and redesign it from a graph signal processing (GSP) perspective. We propose a graph-filter-based self-attention (GFSA) to learn a general yet effective one, whose complexity, however, is slightly larger than that of the original self-attention mechanism. We demonstrate that GFSA improves the performance of Transformers in various fields, including computer vision, natural language processing, graph regression, speech recognition, and code classification.
翻訳日:2024-05-30 04:07:24 公開日:2024-05-28
# ボルツマン発電機を用いたMCMC移動を用いた遷移経路サンプリング

Transition Path Sampling with Boltzmann Generator-based MCMC Moves ( http://arxiv.org/abs/2312.05340v2 )

ライセンス: Link先を確認
Michael Plainer, Hannes Stärk, Charlotte Bunne, Stephan Günnemann, (参考訳) 分子系の2つの3次元状態間の全ての可能な遷移経路をサンプリングすることは、触媒設計から薬物発見まで、様々な応用がある。 サンプル遷移経路への現在のアプローチはマルコフ連鎖モンテカルロを用いており、新しい経路を見つけるために時間集約的な分子動力学シミュレーションに依存している。 我々の手法は、分子のボルツマン分布からガウスへ写像する正規化フローの潜在空間で機能し、分子シミュレーションを必要とせずに新しい経路を提案する。 アラニンジペプチドを用いて,潜伏空間におけるメトロポリス・ハスティングスの受容基準を調査し,様々な潜伏提案機構について検討した。

Sampling all possible transition paths between two 3D states of a molecular system has various applications ranging from catalyst design to drug discovery. Current approaches to sample transition paths use Markov chain Monte Carlo and rely on time-intensive molecular dynamics simulations to find new paths. Our approach operates in the latent space of a normalizing flow that maps from the molecule's Boltzmann distribution to a Gaussian, where we propose new paths without requiring molecular simulations. Using alanine dipeptide, we explore Metropolis-Hastings acceptance criteria in the latent space for exact sampling and investigate different latent proposal mechanisms.
翻訳日:2024-05-30 03:57:34 公開日:2024-05-28
# Pensieveを使ったステートフルな大規模言語モデル

Stateful Large Language Model Serving with Pensieve ( http://arxiv.org/abs/2312.05516v2 )

ライセンス: Link先を確認
Lingfan Yu, Jinyang Li, (参考訳) 大規模言語モデル(LLM)は現在非常に人気があり、効率的に提供することが重要です。 既存のLLMサービスシステムはリクエスト間でステートレスである。 従って、マルチターン会話の共通設定でLLMを使用する場合、各ターンでサービスシステムによる要求と合わせて会話履歴のログを増大させ、繰り返し処理を行う必要がある。 本稿では,マルチターン会話LLMサービスに最適化されたシステムであるPensieveを設計する。 Pensieveは、以前処理された履歴をキャッシュすることで、リクエスト間での会話状態を維持する。 Pensieveのマルチ層キャッシュ戦略は、GPUとCPUメモリの両方を使用して、キャッシュされたデータを効率的に保存および取得することができる。 Pensieve氏はまた、最近のPagedAttentionカーネルを一般化して、GPUキャッシュを非連続メモリ上に分散した複数の入力トークン間の注意をサポートする。 評価の結果, Pensieve は vLLM や TensorRT-LLM と比較して 13-58% のスループットを実現でき,レイテンシを大幅に低減できることがわかった。

Large Language Models (LLMs) are wildly popular today and it is important to serve them efficiently. Existing LLM serving systems are stateless across requests. Consequently, when LLMs are used in the common setting of multi-turn conversations, a growing log of the conversation history must be processed alongside any request by the serving system at each turn, resulting in repeated processing. In this paper, we design Pensieve, a system optimized for multi-turn conversation LLM serving. Pensieve maintains the conversation state across requests by caching previously processed history to avoid duplicate processing. Pensieve's multi-tier caching strategy can utilize both GPU and CPU memory to efficiently store and retrieve cached data. Pensieve also generalizes the recent PagedAttention kernel to support attention between multiple input tokens with a GPU cache spread over non-contiguous memory. Our evaluation shows that Pensieve can achieve 13-58% more throughput compared to vLLM and TensorRT-LLM and significantly reduce latency.
翻訳日:2024-05-30 03:57:34 公開日:2024-05-28
# アクティベーショングラディエントに基づくバックドアアタックに対するポゾン化サンプル検出

Activation Gradient based Poisoned Sample Detection Against Backdoor Attacks ( http://arxiv.org/abs/2312.06230v2 )

ライセンス: Link先を確認
Danni Yuan, Shaokui Wei, Mingda Zhang, Li Liu, Baoyuan Wu, (参考訳) 本研究は,データ中毒によるバックドア攻撃に対する防毒試料検出の課題について検討する。 その中核となる課題は、清潔と様々な種類の毒のサンプル(例えば、様々なトリガー、様々な毒の比率)を区別するための、一般化可能で差別的な指標を見つけることである。 バックドアモデルが標的クラス内の有毒およびクリーンな試料を同様の活性化領域にマップする傾向にあるというバックドア攻撃の一般的な現象にインスパイアされた我々は、勾配の循環分布(GCD)と呼ばれる勾配の循環分布の新たな視点を導入する。 そして,GCDに基づく2つの興味深い観測結果を得た。 ひとつは、ターゲットクラスのサンプルのGCDがクリーンクラスのサンプルよりもずっと分散していることです。 もう一つは、標的クラスのGCDでは、毒と清潔なサンプルが明確に分離されていることである。 以上の2つの観察から着想を得た本研究では, アクティベーション・グラディエント・ベース・ポゾンド・サンプル検出 (AGPD) と呼ばれる, 革新的な3段階毒素検出手法を開発した。 まず、信頼できないデータセットで訓練されたモデルから、すべてのクラスのGCDを計算する。 そして,対象クラスとクリーンクラス間のGCD分散の違いに基づいて,対象クラス(es)を同定する。 最後に, 汚染された試料とクリーンな試料との明確な分離に基づいて, 同定された標的クラス内の有毒試料をろ過する。 種々のバックドア攻撃条件下での広範囲な実験により,本手法が既存の有毒検出方法よりも優れた検出性能を示した。

This work studies the task of poisoned sample detection for defending against data poisoning based backdoor attacks. Its core challenge is finding a generalizable and discriminative metric to distinguish between clean and various types of poisoned samples (e.g., various triggers, various poisoning ratios). Inspired by a common phenomenon in backdoor attacks that the backdoored model tend to map significantly different poisoned and clean samples within the target class to similar activation areas, we introduce a novel perspective of the circular distribution of the gradients w.r.t. sample activation, dubbed gradient circular distribution (GCD). And, we find two interesting observations based on GCD. One is that the GCD of samples in the target class is much more dispersed than that in the clean class. The other is that in the GCD of target class, poisoned and clean samples are clearly separated. Inspired by above two observations, we develop an innovative three-stage poisoned sample detection approach, called Activation Gradient based Poisoned sample Detection (AGPD). First, we calculate GCDs of all classes from the model trained on the untrustworthy dataset. Then, we identify the target class(es) based on the difference on GCD dispersion between target and clean classes. Last, we filter out poisoned samples within the identified target class(es) based on the clear separation between poisoned and clean samples. Extensive experiments under various settings of backdoor attacks demonstrate the superior detection performance of the proposed method to existing poisoned detection approaches according to sample activation-based metrics.
翻訳日:2024-05-30 03:57:34 公開日:2024-05-28
# GMTalker: ガウスのミキチャーをベースとした音声駆動型感情会話ビデオ「Portraits」

GMTalker: Gaussian Mixture-based Audio-Driven Emotional talking video Portraits ( http://arxiv.org/abs/2312.07669v2 )

ライセンス: Link先を確認
Yibo Xia, Lizhen Wang, Xiang Deng, Xiaoyan Luo, Yebin Liu, (参考訳) 音声-リップ同期、鮮やかな表現、リアルな頭ポーズ、目まきといった、高忠実で感情制御可能な音声映像の合成は、近年重要かつ困難な課題となっている。 既存の方法の多くは、パーソナライズされた正確な感情制御、異なる感情状態間の滑らかな遷移、多様な動きの生成に苦しむ。 これらの課題に対処するために,ガウスの混合型感情的音声画像生成フレームワークであるGMTalkerを紹介する。 具体的には,連続的かつ不整合な潜在空間を構築でき,より柔軟な感情操作を実現するガウス混合式生成器を提案する。 さらに,多彩な頭部ポーズ,瞬き,眼球運動を生成するために,広範囲な動きを持つ大規模データセット上で事前訓練された正規化フローベースモーションジェネレータを導入する。 最後に,感情マッピングネットワークを備えたパーソナライズされた感情誘導ヘッドジェネレータを提案する。 定量的および定性的な実験は、画像品質、フォトリアリズム、感情の正確性、動きの多様性において、従来の手法よりも優れていた。

Synthesizing high-fidelity and emotion-controllable talking video portraits, with audio-lip sync, vivid expressions, realistic head poses, and eye blinks, has been an important and challenging task in recent years. Most existing methods suffer in achieving personalized and precise emotion control, smooth transitions between different emotion states, and the generation of diverse motions. To tackle these challenges, we present GMTalker, a Gaussian mixture-based emotional talking portraits generation framework. Specifically, we propose a Gaussian mixture-based expression generator that can construct a continuous and disentangled latent space, achieving more flexible emotion manipulation. Furthermore, we introduce a normalizing flow-based motion generator pretrained on a large dataset with a wide-range motion to generate diverse head poses, blinks, and eyeball movements. Finally, we propose a personalized emotion-guided head generator with an emotion mapping network that can synthesize high-fidelity and faithful emotional video portraits. Both quantitative and qualitative experiments demonstrate our method outperforms previous methods in image quality, photo-realism, emotion accuracy, and motion diversity.
翻訳日:2024-05-30 03:57:34 公開日:2024-05-28
# VQ-HPS:ベクトル量子化潜在空間における人間の姿勢と形状推定

VQ-HPS: Human Pose and Shape Estimation in a Vector-Quantized Latent Space ( http://arxiv.org/abs/2312.08291v2 )

ライセンス: Link先を確認
Guénolé Fiche, Simon Leglaive, Xavier Alameda-Pineda, Antonio Agudo, Francesc Moreno-Noguer, (参考訳) RGB画像からのHuman Pose and Shape Estimation(HPSE)に関するこれまでの研究は、パラメトリックと非パラメトリックの2つの主要なグループに分類される。 近年の非パラメトリック手法は, 人体メッシュの3次元座標を直接回帰することにより, 高精度化を実現している。 本研究はHPSE問題に対処する新しいパラダイムを導入し,人間のメッシュの低次元離散潜在表現とHPSEのフレーミングを分類課題とする。 身体モデルパラメータや3次元頂点座標を予測する代わりに、提案する離散潜在表現の予測に重点を置いており、これは登録された人間のメッシュにデコードできる。 この革新的なパラダイムには2つの大きな利点がある。 第一に、低次元の離散表現を予測することは、トレーニングデータが少ない場合でも、人為的ポーズや形状の空間に予測を限定する。 第二に、問題を分類タスクとしてフレーミングすることで、ニューラルネットワークに固有の識別力を利用することができる。 提案モデルであるVQ-HPSはメッシュの離散潜在表現を予測する。 実験結果から,VQ-HPSは従来の非パラメトリック手法よりも優れており,少ないデータでトレーニングした場合のパラメトリック手法と同等に現実的な結果が得られることがわかった。 VQ-HPSはまた、大規模データセットのトレーニングにおいて有望な結果を示し、HPSEの分類アプローチの有意義な可能性を強調している。 プロジェクトページはhttps://g-fiche.github.io/research-pages/vqhps/にある。

Previous works on Human Pose and Shape Estimation (HPSE) from RGB images can be broadly categorized into two main groups: parametric and non-parametric approaches. Parametric techniques leverage a low-dimensional statistical body model for realistic results, whereas recent non-parametric methods achieve higher precision by directly regressing the 3D coordinates of the human body mesh. This work introduces a novel paradigm to address the HPSE problem, involving a low-dimensional discrete latent representation of the human mesh and framing HPSE as a classification task. Instead of predicting body model parameters or 3D vertex coordinates, we focus on predicting the proposed discrete latent representation, which can be decoded into a registered human mesh. This innovative paradigm offers two key advantages. Firstly, predicting a low-dimensional discrete representation confines our predictions to the space of anthropomorphic poses and shapes even when little training data is available. Secondly, by framing the problem as a classification task, we can harness the discriminative power inherent in neural networks. The proposed model, VQ-HPS, predicts the discrete latent representation of the mesh. The experimental results demonstrate that VQ-HPS outperforms the current state-of-the-art non-parametric approaches while yielding results as realistic as those produced by parametric methods when trained with little data. VQ-HPS also shows promising results when training on large-scale datasets, highlighting the significant potential of the classification approach for HPSE. See the project page at https://g-fiche.github.io/research-pages/vqhps/
翻訳日:2024-05-30 03:57:34 公開日:2024-05-28
# BDHT: 生成AIは軽度認知障害の因果解析を可能にする

BDHT: Generative AI Enables Causality Analysis for Mild Cognitive Impairment ( http://arxiv.org/abs/2312.09022v2 )

ライセンス: Link先を確認
Qiankun Zuo, Ling Chen, Yanyan Shen, Michael Kwok-Po Ng, Baiying Lei, Shuqiang Wang, (参考訳) 効果的な接続推定は、異なる脳領域間の相互作用と情報の流れを理解する上で重要な役割を果たす。 しかし、有効接続を推定するために使用される関数時系列は、パラメータ設定が異なるため大きな計算誤差を生じさせ、脳領域間の複雑な因果関係をモデル化する能力が低下する可能性がある、特定のソフトウェアから導かれる。 本稿では, 階層型トランスフォーマー(BDHT)を用いた脳ディフューザを提案し, 軽度認知障害(MCI)解析に有効な接続性を推定した。 我々の知る限り、提案した脳ディフューザは、マルチモーダル脳ネットワークの生成と解析の応用に拡散モデルを適用した最初の生成モデルである。 具体的には、BDHTは構造的な接続を利用して、逆のプロセスを効率的に導く。 これにより、復調プロセスがより信頼性が高くなり、効果的な接続推定精度が保証される。 階層型復調変換器は, 位相空間におけるマルチスケール特徴を学習するために設計されている。 マルチヘッドアテンションとグラフ畳み込みネットワークを積み重ねることで、グラフ畳み込み変換器(GraphConformer)モジュールは構造-機能相補性を高め、ノイズ推定の能力を向上させる。 遮音拡散モデルの実験的評価は, 有効接続性の推定に有効であることを示す。 提案手法は,既存手法に比べて精度と頑健性に優れる。 さらに,本モデルでは,変化方向の接続を同定し,MCI治療におけるパーフェノゲン生成の包括的理解を提供する。

Effective connectivity estimation plays a crucial role in understanding the interactions and information flow between different brain regions. However, the functional time series used for estimating effective connectivity is derived from certain software, which may lead to large computing errors because of different parameter settings and degrade the ability to model complex causal relationships between brain regions. In this paper, a brain diffuser with hierarchical transformer (BDHT) is proposed to estimate effective connectivity for mild cognitive impairment (MCI) analysis. To our best knowledge, the proposed brain diffuser is the first generative model to apply diffusion models to the application of generating and analyzing multimodal brain networks. Specifically, the BDHT leverages structural connectivity to guide the reverse processes in an efficient way. It makes the denoising process more reliable and guarantees effective connectivity estimation accuracy. To improve denoising quality, the hierarchical denoising transformer is designed to learn multi-scale features in topological space. By stacking the multi-head attention and graph convolutional network, the graph convolutional transformer (GraphConformer) module is devised to enhance structure-function complementarity and improve the ability in noise estimation. Experimental evaluations of the denoising diffusion model demonstrate its effectiveness in estimating effective connectivity. The proposed model achieves superior performance in terms of accuracy and robustness compared to existing approaches. Moreover, the proposed model can identify altered directional connections and provide a comprehensive understanding of parthenogenesis for MCI treatment.
翻訳日:2024-05-30 03:57:34 公開日:2024-05-28
# 大規模言語モデルエージェントのためのワーキングメモリの強化

Empowering Working Memory for Large Language Model Agents ( http://arxiv.org/abs/2312.17259v2 )

ライセンス: Link先を確認
Jing Guo, Nan Li, Jianchuan Qi, Hang Yang, Ruiqiao Li, Yuzhen Feng, Si Zhang, Ming Xu, (参考訳) 大規模言語モデル(LLM)は印象的な言語機能を実現している。 しかしながら、重要な制限は、人間のような記憶能力の欠如に留まる。 LLMは連続的な相互作用に制約のあるメモリ保持を示し、複雑な推論を妨げる。 本稿では,認知心理学のワーキングメモリフレームワークを適用し,LLMアーキテクチャを向上する可能性について考察する。 従来のLLMメモリ設計の限界は、異なるダイアログエピソードの分離や永続的なメモリリンクの欠如など、分析される。 これを解決するために、集中型ワーキングメモリハブとエピソード間のメモリ保持のためのエピソディックバッファアクセスを取り入れた革新的なモデルが提案されている。 このアーキテクチャは、複雑なタスクと協調シナリオの間のニュアンス付きコンテキスト推論に対して、より継続的なものを提供することを目的としている。 将来性はあるものの、エピソードメモリエンコーディング、ストレージ、優先順位付け、検索、セキュリティの最適化にはさらなる研究が必要である。 本稿では,より高度で人間らしい記憶能力を持つLSMエージェントを開発するための戦略的青写真を提供し,汎用人工知能における重要なフロンティアとしてメモリ機構を強調した。

Large language models (LLMs) have achieved impressive linguistic capabilities. However, a key limitation persists in their lack of human-like memory faculties. LLMs exhibit constrained memory retention across sequential interactions, hindering complex reasoning. This paper explores the potential of applying cognitive psychology's working memory frameworks, to enhance LLM architecture. The limitations of traditional LLM memory designs are analyzed, including their isolation of distinct dialog episodes and lack of persistent memory links. To address this, an innovative model is proposed incorporating a centralized Working Memory Hub and Episodic Buffer access to retain memories across episodes. This architecture aims to provide greater continuity for nuanced contextual reasoning during intricate tasks and collaborative scenarios. While promising, further research is required into optimizing episodic memory encoding, storage, prioritization, retrieval, and security. Overall, this paper provides a strategic blueprint for developing LLM agents with more sophisticated, human-like memory capabilities, highlighting memory mechanisms as a vital frontier in artificial general intelligence.
翻訳日:2024-05-30 03:57:34 公開日:2024-05-28
# 複雑力学系のモデルにおける構造誤差の学習

Learning About Structural Errors in Models of Complex Dynamical Systems ( http://arxiv.org/abs/2401.00035v2 )

ライセンス: Link先を確認
Jin-Long Wu, Matthew E. Levine, Tapio Schneider, Andrew Stuart, (参考訳) 複雑な力学系は、いくつかの自由度(例えば、小さなスケール)が計算的に解決できない、あるいは完全に理解されていないため、モデル化が難しいことが知られているが、それらは動的に重要である。 例えば、雲の力学と液滴の形成の小さなスケールは気候の制御に不可欠であるが、地球規模の気候モデルでは解決不可能である。 未解決自由度の影響に対する半経験的閉包モデルは、しばしば存在し、重要なドメイン固有の知識を符号化する。 このようなクロージャモデルを構築し、構造的エラーを学習して修正することは、ドメイン知識でデータを融合する効果的な方法である。 ここでは、構造的エラーについて学ぶための一般的なアプローチ、原則、アルゴリズムについて説明する。 このアプローチの鍵となるのは、例えば未解決スケールのクロージャモデルにおいて、複雑なシステムのモデル内に構造的エラーモデルを含めることです。 構造誤差は、通常非線形に観測可能なデータにマッピングされる。 しかしながら、モデル出力とデータ間のミスマッチは、ラベル付き入力ペアの欠如と構造誤差モデルの出力不足により、構造誤差について間接的にのみ通知される。 さらに、モデルの微分は存在せず、容易に利用することができる。 微分自由カルマン反転アルゴリズムと変種を用いた間接データから構造誤差モデルをどのように学習するか、空間制約が「害のない」原理をどのように強制するか、構造誤差をモデル化する方法について論じる。 また、非局所的および確率的誤差モデルを使用することの利点についても論じる。 さらに,データ同化技術が非エルゴディックシステムにおける構造的誤りの学習にどのように役立つかを示す。 概念とアルゴリズムは、Lorenz-96システムとヒトグルコース-インスリンモデルに基づく2つの数値例で示される。

Complex dynamical systems are notoriously difficult to model because some degrees of freedom (e.g., small scales) may be computationally unresolvable or are incompletely understood, yet they are dynamically important. For example, the small scales of cloud dynamics and droplet formation are crucial for controlling climate, yet are unresolvable in global climate models. Semi-empirical closure models for the effects of unresolved degrees of freedom often exist and encode important domain-specific knowledge. Building on such closure models and correcting them through learning the structural errors can be an effective way of fusing data with domain knowledge. Here we describe a general approach, principles, and algorithms for learning about structural errors. Key to our approach is to include structural error models inside the models of complex systems, for example, in closure models for unresolved scales. The structural errors then map, usually nonlinearly, to observable data. As a result, however, mismatches between model output and data are only indirectly informative about structural errors, due to a lack of labeled pairs of inputs and outputs of structural error models. Additionally, derivatives of the model may not exist or be readily available. We discuss how structural error models can be learned from indirect data with derivative-free Kalman inversion algorithms and variants, how sparsity constraints enforce a "do no harm" principle, and various ways of modeling structural errors. We also discuss the merits of using non-local and/or stochastic error models. In addition, we demonstrate how data assimilation techniques can assist the learning about structural errors in non-ergodic systems. The concepts and algorithms are illustrated in two numerical examples based on the Lorenz-96 system and a human glucose-insulin model.
翻訳日:2024-05-30 03:57:34 公開日:2024-05-28
# 圧縮部分空間を用いたワンステップレイト・フュージョン・マルチビュークラスタリング

One-Step Late Fusion Multi-view Clustering with Compressed Subspace ( http://arxiv.org/abs/2401.01558v3 )

ライセンス: Link先を確認
Qiyuan Ou, Pei Zhang, Sihang Zhou, En Zhu, (参考訳) 後期核融合型マルチビュークラスタリング(LFMVC)は、計算速度とクラスタリング性能に優れたため、マルチビュークラスタリング(MVC)分野において急速に成長する手法のクラスとなっている。 既存のレイトフュージョンメソッドが直面しているボトルネックは、通常は平均的なカーネル関数に一致しているため、クラスタリングのパフォーマンスがデータセットの品質に大きく依存している点である。 もう一つの問題は、コンセンサス分割行列を取得して最終的な離散ラベルを得るのにその後のk平均クラスタリングが必要であり、その結果ラベル学習とクラスタ構造最適化プロセスの分離がこれらのモデルの整合性を制限することである。 上記の問題に対処するため,圧縮部分空間を用いたOne-Step Late Fusion Multi-view Clustering (OS-LFMVC-CS) という統合フレームワークを提案する。 具体的には、コンセンサス部分空間を用いて分割行列を最適化し、分割融合を最適化し、融合された分割行列を用いて離散ラベルの学習を指導する。 検証収束を伴う6段階反復最適化手法を提案する。 複数のデータセットに対する十分な実験により,提案手法の有効性と有効性を検証した。

Late fusion multi-view clustering (LFMVC) has become a rapidly growing class of methods in the multi-view clustering (MVC) field, owing to its excellent computational speed and clustering performance. One bottleneck faced by existing late fusion methods is that they are usually aligned to the average kernel function, which makes the clustering performance highly dependent on the quality of datasets. Another problem is that they require subsequent k-means clustering after obtaining the consensus partition matrix to get the final discrete labels, and the resulting separation of the label learning and cluster structure optimization processes limits the integrity of these models. To address the above issues, we propose an integrated framework named One-Step Late Fusion Multi-view Clustering with Compressed Subspace (OS-LFMVC-CS). Specifically, we use the consensus subspace to align the partition matrix while optimizing the partition fusion, and utilize the fused partition matrix to guide the learning of discrete labels. A six-step iterative optimization approach with verified convergence is proposed. Sufficient experiments on multiple datasets validate the effectiveness and efficiency of our proposed method.
翻訳日:2024-05-30 03:57:34 公開日:2024-05-28
# MatSynth: 最新のPBRマテリアルデータセット

MatSynth: A Modern PBR Materials Dataset ( http://arxiv.org/abs/2401.06056v3 )

ライセンス: Link先を確認
Giuseppe Vecchio, Valentin Deschaintre, (参考訳) 4000以上のCC0超高分解能PBR材料のデータセットであるMatSynthを紹介する。 物質は、ジオメトリーの表面における光の相互作用を定義する、仮想的な照準可能な資産の重要な構成要素である。 その重要性から、彼らの表現、創造、獲得に多大な研究努力が注がれた。 しかし、過去6年間で、ほとんどの材料買収や世代の研究は、同じユニークなデータセットか、会社が所有する巨大な手続き資料ライブラリに頼っていた。 このデータセットでは、以前よりはるかに大きく、より多様性があり、高解像度の材料セットを提案する。 我々は,データ収集プロセスについて慎重に議論し,本データセットが物質取得および生成アプリケーションにもたらすメリットを実証する。 完全なデータには、各材料の起源、ライセンス、カテゴリ、タグ、作成方法、利用可能な場合、説明と物理サイズ、および様々な環境照明の下で1Kの3M+レンダリングを含むメタデータが含まれる。 MatSynthデータセットは、プロジェクトページ(https://www.gvecchio.com/matsynth)からリリースされている。

We introduce MatSynth, a dataset of 4,000+ CC0 ultra-high resolution PBR materials. Materials are crucial components of virtual relightable assets, defining the interaction of light at the surface of geometries. Given their importance, significant research effort was dedicated to their representation, creation and acquisition. However, in the past 6 years, most research in material acquisiton or generation relied either on the same unique dataset, or on company-owned huge library of procedural materials. With this dataset we propose a significantly larger, more diverse, and higher resolution set of materials than previously publicly available. We carefully discuss the data collection process and demonstrate the benefits of this dataset on material acquisition and generation applications. The complete data further contains metadata with each material's origin, license, category, tags, creation method and, when available, descriptions and physical size, as well as 3M+ renderings of the augmented materials, in 1K, under various environment lightings. The MatSynth dataset is released through the project page at: https://www.gvecchio.com/matsynth.
翻訳日:2024-05-30 03:57:34 公開日:2024-05-28
# 消化器内視鏡検査における視力障害に対する自己改善プレトレーニングの検討

A Study on Self-Supervised Pretraining for Vision Problems in Gastrointestinal Endoscopy ( http://arxiv.org/abs/2401.06278v2 )

ライセンス: Link先を確認
Edward Sanderson, Bogdan J. Matuszewski, (参考訳) 消化器内視鏡(GIE)における視覚タスクへの解決策は、従来、ImageNet-1kをバックボーンとして、教師付き方法でトレーニングされたイメージエンコーダを用いていた。 しかし、現代の自己教師付き事前学習アルゴリズムと100kの非ラベル付きGIE画像(Hyperkvasir-unlabelled)のデータセットを使用することで、改善が期待できる。 本稿では,ResNet50 と ViT-B のバックボーンを用いたモデルの性能を,ImageNet-1k と Hyperkvasir-unlabelled (自己教師のみ) を用いて,GIE ビジョンタスクにおいて事前訓練した。 各タスクに最も適した事前学習パイプラインとバックボーンアーキテクチャの同定に加えて,本研究の結果から3つの原則が示唆された。 第一に、自己教師付き事前訓練は一般的に、教師付き事前訓練よりも、GIEビジョンタスクに適したバックボーンを生成する。 第二に、ImageNet-1kを用いた自己教師付き事前訓練は、大腸内視鏡における単分子深度推定の顕著な例外を除いて、Hyperkvasir-unlabelledによる事前訓練よりも適している。 第三に、ViT-Bsは大腸内視鏡におけるポリープのセグメンテーションや単分子深度推定に適しており、ResNet50sはポリープ検出に適しており、どちらのアーキテクチャも解剖学的ランドマーク認識や病理学的特徴付けでも同じように機能する。 我々は、この研究がGIEビジョンタスクの事前訓練の複雑さに注意を向け、大会よりも適切なアプローチをこの開発に通知し、この開発を促進するためにさらなる研究を促すことを願っている。 コード提供: \underline{github.com/ESandML/SSL4GIE}

Solutions to vision tasks in gastrointestinal endoscopy (GIE) conventionally use image encoders pretrained in a supervised manner with ImageNet-1k as backbones. However, the use of modern self-supervised pretraining algorithms and a recent dataset of 100k unlabelled GIE images (Hyperkvasir-unlabelled) may allow for improvements. In this work, we study the fine-tuned performance of models with ResNet50 and ViT-B backbones pretrained in self-supervised and supervised manners with ImageNet-1k and Hyperkvasir-unlabelled (self-supervised only) in a range of GIE vision tasks. In addition to identifying the most suitable pretraining pipeline and backbone architecture for each task, out of those considered, our results suggest three general principles. Firstly, that self-supervised pretraining generally produces more suitable backbones for GIE vision tasks than supervised pretraining. Secondly, that self-supervised pretraining with ImageNet-1k is typically more suitable than pretraining with Hyperkvasir-unlabelled, with the notable exception of monocular depth estimation in colonoscopy. Thirdly, that ViT-Bs are more suitable in polyp segmentation and monocular depth estimation in colonoscopy, ResNet50s are more suitable in polyp detection, and both architectures perform similarly in anatomical landmark recognition and pathological finding characterisation. We hope this work draws attention to the complexity of pretraining for GIE vision tasks, informs this development of more suitable approaches than the convention, and inspires further research on this topic to help advance this development. Code available: \underline{github.com/ESandML/SSL4GIE}
翻訳日:2024-05-30 03:57:34 公開日:2024-05-28
# InterS: インストラクションチューニングによる検索における大規模言語モデルのパワーの解放

INTERS: Unlocking the Power of Large Language Models in Search with Instruction Tuning ( http://arxiv.org/abs/2401.06532v3 )

ライセンス: Link先を確認
Yutao Zhu, Peitian Zhang, Chenghao Zhang, Yifei Chen, Binyu Xie, Zheng Liu, Ji-Rong Wen, Zhicheng Dou, (参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な機能を示している。 それにもかかわらず、情報検索(IR)タスクへのそれらの適用は、自然言語における多くのIR固有の概念の頻繁な発生のため、いまだに困難である。 プロンプトベースのメソッドはLLMにタスク記述を提供することができるが、IRタスクの包括的な理解と実行を容易にするのに不足するため、LLMの適用性が制限されることが多い。 このギャップに対処するため、本研究では、IRタスクにおけるLLMの習熟度を高めるために、命令チューニングの可能性について検討する。 我々は,クエリ理解,文書理解,クエリドキュメント関係理解という3つの基本的なIRカテゴリにまたがる20のタスクを含む,新しい命令チューニングデータセット InterS を導入する。 データは、手書きのテンプレートを持つ43の異なるデータセットから導出される。 実験結果から、IRタスクにおいて、InterSはLLaMA、Mistral、Phiといった様々な公開LLMの性能を大幅に向上させることが明らかとなった。 さらに、命令設計、テンプレートの多様性、数発のデモ、および命令のボリュームがパフォーマンスに与える影響を分析するための広範な実験を行った。 データセットと微調整されたモデルをhttps://github.com/DaoD/INTERSで公開しています。

Large language models (LLMs) have demonstrated impressive capabilities in various natural language processing tasks. Despite this, their application to information retrieval (IR) tasks is still challenging due to the infrequent occurrence of many IR-specific concepts in natural language. While prompt-based methods can provide task descriptions to LLMs, they often fall short in facilitating a comprehensive understanding and execution of IR tasks, thereby limiting LLMs' applicability. To address this gap, in this work, we explore the potential of instruction tuning to enhance LLMs' proficiency in IR tasks. We introduce a novel instruction tuning dataset, INTERS, encompassing 20 tasks across three fundamental IR categories: query understanding, document understanding, and query-document relationship understanding. The data are derived from 43 distinct datasets with manually written templates. Our empirical results reveal that INTERS significantly boosts the performance of various publicly available LLMs, such as LLaMA, Mistral, and Phi, in IR tasks. Furthermore, we conduct extensive experiments to analyze the effects of instruction design, template diversity, few-shot demonstrations, and the volume of instructions on performance. We make our dataset and the fine-tuned models publicly accessible at https://github.com/DaoD/INTERS.
翻訳日:2024-05-30 03:57:34 公開日:2024-05-28
# 地球ビジョンのための統一基盤モデルを目指して

One for All: Toward Unified Foundation Models for Earth Vision ( http://arxiv.org/abs/2401.07527v2 )

ライセンス: Link先を確認
Zhitong Xiong, Yi Wang, Fahong Zhang, Xiao Xiang Zhu, (参考訳) 広範囲なパラメータを特徴とし、大規模なデータセットで訓練された基礎モデルは、リモートセンシングデータのための様々な下流タスクにおいて顕著な有効性を示している。 現在のリモートセンシング基盤モデルは、通常、単一のモダリティまたは特定の空間解像度範囲を専門とし、下流データセットの汎用性を制限する。 マルチモーダルリモートセンシング基盤モデルの開発は試みられているが、通常、各モードや空間解像度に別々の視覚エンコーダを使用し、入力データに基づいてバックボーンのスイッチを必要とする。 この問題に対処するために、単一共有トランスフォーマーバックボーンを用いて、空間解像度の異なる複数のデータモダリティを実現する、単純なOFA-Net(One-For-All Network)手法を提案する。 マスク付き画像モデリング機構を用いて、このシンプルな設計で、キュレートされたマルチモーダルデータセット上で、1つのTransformerバックボーンを事前訓練する。 次に、バックボーンモデルは異なる下流タスクで使用することができ、地球ビジョンにおける統一された基盤バックボーンモデルへの道を開くことができる。 提案手法は,12の異なる下流タスクに対して評価し,有望な性能を示す。

Foundation models characterized by extensive parameters and trained on large-scale datasets have demonstrated remarkable efficacy across various downstream tasks for remote sensing data. Current remote sensing foundation models typically specialize in a single modality or a specific spatial resolution range, limiting their versatility for downstream datasets. While there have been attempts to develop multi-modal remote sensing foundation models, they typically employ separate vision encoders for each modality or spatial resolution, necessitating a switch in backbones contingent upon the input data. To address this issue, we introduce a simple yet effective method, termed OFA-Net (One-For-All Network): employing a single, shared Transformer backbone for multiple data modalities with different spatial resolutions. Using the masked image modeling mechanism, we pre-train a single Transformer backbone on a curated multi-modal dataset with this simple design. Then the backbone model can be used in different downstream tasks, thus forging a path towards a unified foundation backbone model in Earth vision. The proposed method is evaluated on 12 distinct downstream tasks and demonstrates promising performance.
翻訳日:2024-05-30 03:57:34 公開日:2024-05-28
# 連成モデルとマッチングによる前方・周囲からの3次元車線検出

3D Lane Detection from Front or Surround-View using Joint-Modeling & Matching ( http://arxiv.org/abs/2401.08036v2 )

ライセンス: Link先を確認
Haibin Zhou, Huabing Zhou, Jun Chang, Tao Lu, Jiayi Ma, (参考訳) 3Dレーンは2Dレーンよりも道路表面の幾何学をより包括的に理解し、運転決定と軌道計画に重要な基準を提供する。 多くの取り組みは予測精度を向上させることを目的としているが、効率的なネットワークはレーンモデリングに結果をもたらす可能性があることを認識している。 しかし、モデリングデータが不正確であれば、実際のシナリオを正確に捉えることはできないかもしれない。 したがって、予測結果を環境と密に整合させるためには、正確な車線モデリングが不可欠である。 本研究では,ベジエ曲線と補間法を組み合わせた共同モデリング手法を提案する。 さらに,このレーンモデリング手法を用いて,ベジエ制御点とキーポイントを用いたGlobal2Local Lane Matching法を開発した。 また,3次元サラウンドビューレーン検出研究の探索を目的とした新しい3次元空間エンコーダについても紹介する。 このフレームワークは、フロントビューまたはサラウンドビューの3Dレーン検出に適している。 3次元空間においてレーンのキーポイントを直接出力することにより、アンカーベースの手法の限界を克服し、閉ループやU字形のレーンの正確な予測と複雑な道路条件への効果的な適応を可能にする。 この革新的な手法は、Openlaneデータセットのフロントビュー3Dレーン検出において新しいベンチマークを確立し、Argoverse2データセットのサラウンドビュー2Dレーン検出において競合性能を達成する。

3D lanes offer a more comprehensive understanding of the road surface geometry than 2D lanes, thereby providing crucial references for driving decisions and trajectory planning. While many efforts aim to improve prediction accuracy, we recognize that an efficient network can bring results closer to lane modeling. However, if the modeling data is imprecise, the results might not accurately capture the real-world scenario. Therefore, accurate lane modeling is essential to align prediction results closely with the environment. This study centers on efficient and accurate lane modeling, proposing a joint modeling approach that combines Bezier curves and interpolation methods. Furthermore, based on this lane modeling approach, we developed a Global2Local Lane Matching method with Bezier Control-Point and Key-Point, which serve as a comprehensive solution that leverages hierarchical features with two mathematical models to ensure a precise match. We also introduce a novel 3D Spatial Encoder, representing an exploration of 3D surround-view lane detection research. The framework is suitable for front-view or surround-view 3D lane detection. By directly outputting the key points of lanes in 3D space, it overcomes the limitations of anchor-based methods, enabling accurate prediction of closed-loop or U-shaped lanes and effective adaptation to complex road conditions. This innovative method establishes a new benchmark in front-view 3D lane detection on the Openlane dataset and achieves competitive performance in surround-view 2D lane detection on the Argoverse2 dataset.
翻訳日:2024-05-30 03:47:50 公開日:2024-05-28
# ラベルのない共変量シフト下でのモデル性能の推定

Estimating Model Performance Under Covariate Shift Without Labels ( http://arxiv.org/abs/2401.08348v3 )

ライセンス: Link先を確認
Jakub Białek, Wojtek Kuberski, Nikolaos Perrakis, Albert Bifet, (参考訳) マシンラーニングモデルは、データ分散の変化によるデプロイ後のパフォーマンス劣化を経験することが多い。 ラベルが欠けたり遅れたりした場合、モデルのパフォーマンスを正確に評価することは困難である。 ドリフト検出のような既存のプロキシ手法では、これらのシフトの影響を適切に測定できない。 そこで本研究では,共変量シフトがモデル性能に与える影響を正確に評価する,ラベルなしデータに基づく分類モデルの評価手法である確率適応性能推定(PAPE)を提案する。 モデルとデータタイプの非依存であり、さまざまなパフォーマンスメトリクスで機能する。 重要なことに、PAPEは元のモデルとは独立して動作し、予測と確率推定のみに依存し、代わりにデータから直接学習する共変量シフトの性質に関する仮定は不要である。 我々は、米国国勢調査データから900以上のデータセットモデルの組み合わせを用いて表データ上でPAPEを試験し、その性能を複数のベンチマークで評価した。 全体として、PAPEは他の評価手法よりも正確な性能評価を提供した。

Machine learning models often experience performance degradation post-deployment due to shifts in data distribution. It is challenging to assess model's performance accurately when labels are missing or delayed. Existing proxy methods, such as drift detection, fail to measure the effects of these shifts adequately. To address this, we introduce a new method, Probabilistic Adaptive Performance Estimation (PAPE), for evaluating classification models on unlabeled data that accurately quantifies the impact of covariate shift on model performance. It is model and data-type agnostic and works for various performance metrics. Crucially, PAPE operates independently of the original model, relying only on its predictions and probability estimates, and does not need any assumptions about the nature of the covariate shift, learning directly from data instead. We tested PAPE on tabular data using over 900 dataset-model combinations created from US census data, assessing its performance against multiple benchmarks. Overall, PAPE provided more accurate performance estimates than other evaluated methodologies.
翻訳日:2024-05-30 03:47:50 公開日:2024-05-28
# MorphGrower: プラウシブル神経形態形成のためのシンクロナイズド・レイヤ・バイ・レイヤー成長アプローチ

MorphGrower: A Synchronized Layer-by-layer Growing Approach for Plausible Neuronal Morphology Generation ( http://arxiv.org/abs/2401.09500v3 )

ライセンス: Link先を確認
Nianzu Yang, Kaipeng Zeng, Haotian Lu, Yexin Wu, Zexin Yuan, Danni Chen, Shengdian Jiang, Jiaxiang Wu, Yimin Wang, Junchi Yan, (参考訳) 神経形態学は脳の機能研究と神経変性疾患の理解に不可欠である。 実世界の形態データの取得は費用がかかるため、形態素生成のための計算手法が研究されている。 従来の手法はエキスパートセットのルールやパラメータのチューニングに大きく依存しており、様々な形態素をまたいだ一般化が困難である。 近年、MorphVAEは単独の学習法として導入されているが、その生成形態は妥当性に欠けており、現実的には見えず、ほとんどのサンプルは位相的に無効である。 このギャップを埋めるために、生成のためのニューロンの自然成長機構を模倣したMorphGrowerを提案する。 具体的には、MorphGrowerは層ごとにモルフォロジー層を生成し、その後の各層は以前に生成された構造に条件付けされる。 各レイヤ生成において、MorphGrowerは、基本的な生成ブロックとして、一対の兄弟ブランチを使用し、同期的にブランチペアを生成する。 このアプローチは位相的妥当性を保証し、きめ細かな生成を可能にし、最終的な生成形態の現実性を高める。 4つの実世界のデータセットの結果、MorphGrowerはMorphVAEを顕著な差で上回っている。 重要なことに、電気生理学的反応シミュレーションは、神経科学の観点から生成されたサンプルの妥当性を示す。 私たちのコードはhttps://github.com/Thinklab-SJTU/MorphGrower.comで公開されています。

Neuronal morphology is essential for studying brain functioning and understanding neurodegenerative disorders. As acquiring real-world morphology data is expensive, computational approaches for morphology generation have been studied. Traditional methods heavily rely on expert-set rules and parameter tuning, making it difficult to generalize across different types of morphologies. Recently, MorphVAE was introduced as the sole learning-based method, but its generated morphologies lack plausibility, i.e., they do not appear realistic enough and most of the generated samples are topologically invalid. To fill this gap, this paper proposes MorphGrower, which mimicks the neuron natural growth mechanism for generation. Specifically, MorphGrower generates morphologies layer by layer, with each subsequent layer conditioned on the previously generated structure. During each layer generation, MorphGrower utilizes a pair of sibling branches as the basic generation block and generates branch pairs synchronously. This approach ensures topological validity and allows for fine-grained generation, thereby enhancing the realism of the final generated morphologies. Results on four real-world datasets demonstrate that MorphGrower outperforms MorphVAE by a notable margin. Importantly, the electrophysiological response simulation demonstrates the plausibility of our generated samples from a neuroscience perspective. Our code is available at https://github.com/Thinklab-SJTU/MorphGrower.
翻訳日:2024-05-30 03:47:50 公開日:2024-05-28
# PatchAD: 時系列異常検出のための軽量パッチベースMLPミキサ

PatchAD: A Lightweight Patch-based MLP-Mixer for Time Series Anomaly Detection ( http://arxiv.org/abs/2401.09793v5 )

ライセンス: Link先を確認
Zhijie Zhong, Zhiwen Yu, Yiyuan Yang, Weizheng Wang, Kaixiang Yang, (参考訳) 時系列解析における異常検出は重要な課題であるが、ラベル不足シナリオにおける正常パターンと異常パターンを識別することが課題となっている。 以前の研究では、モデルの表現能力を制限する再構成に基づくアプローチが大半を占めていた。 さらに、既存のディープラーニングベースの手法は十分に軽量ではない。 これらの問題に対処するため,表現抽出と異常検出にコントラスト学習を利用する,新しいマルチスケールパッチベースのマルチスケールMLP-MixerアーキテクチャであるPatchADを提案する。 4つの異なるMLPミキサーと革新的なデュアルプロジェクト制約モジュールにより、PatchADは潜在的なモデル劣化を軽減し、わずか3.2$MBの軽量なソリューションを提供する。 その有効性は、異なるアプリケーションシナリオから得られる9ドルのデータセットの最先端の結果によって実証され、30ドルの比較アルゴリズムよりも優れています。 PatchAD は古典的な F1 スコアを 50.5 %$ で、Aff-F1 スコアを 7.8 %$ で、AUC スコアを $10.0 %$ で大幅に改善する。 コードは公開されている。 \url{https://github.com/EmorZz1G/PatchAD}

Anomaly detection in time series analysis is a pivotal task, yet it poses the challenge of discerning normal and abnormal patterns in label-deficient scenarios. While prior studies have largely employed reconstruction-based approaches, which limits the models' representational capacities. Moreover, existing deep learning-based methods are not sufficiently lightweight. Addressing these issues, we present PatchAD, our novel, highly efficient multiscale patch-based MLP-Mixer architecture that utilizes contrastive learning for representation extraction and anomaly detection. With its four distinct MLP Mixers and innovative dual project constraint module, PatchAD mitigates potential model degradation and offers a lightweight solution, requiring only $3.2$MB. Its efficacy is demonstrated by state-of-the-art results across $9$ datasets sourced from different application scenarios, outperforming over $30$ comparative algorithms. PatchAD significantly improves the classical F1 score by $50.5\%$, the Aff-F1 score by $7.8\%$, and the AUC by $10.0\%$. The code is publicly available. \url{https://github.com/EmorZz1G/PatchAD}
翻訳日:2024-05-30 03:47:50 公開日:2024-05-28
# 相関格子QCDアンサンブル生成への流れモデルの適用

Applications of flow models to the generation of correlated lattice QCD ensembles ( http://arxiv.org/abs/2401.10874v2 )

ライセンス: Link先を確認
Ryan Abbott, Aleksandar Botev, Denis Boyda, Daniel C. Hackett, Gurtej Kanwar, Sébastien Racanière, Danilo J. Rezende, Fernando Romero-López, Phiala E. Shanahan, Julian M. Urban, (参考訳) 機械学習された正規化フローは、格子量子場理論の文脈で、異なる作用パラメータで格子ゲージ場の統計的に相関したアンサンブルを生成するために用いられる。 本研究は,これらの相関を可観測物の計算における分散低減に活用する方法を実証する。 ゲージ理論の連続極限、QCD観測値の質量依存性、ファインマン・ヘルマンアプローチに基づくハドロン行列要素である。 いずれの場合も,非相関なアンサンブルや直接再重み付けによる計算と比較すると,機械学習フローが組み込まれた場合,統計的不確実性が著しく低下することが示されている。

Machine-learned normalizing flows can be used in the context of lattice quantum field theory to generate statistically correlated ensembles of lattice gauge fields at different action parameters. This work demonstrates how these correlations can be exploited for variance reduction in the computation of observables. Three different proof-of-concept applications are demonstrated using a novel residual flow architecture: continuum limits of gauge theories, the mass dependence of QCD observables, and hadronic matrix elements based on the Feynman-Hellmann approach. In all three cases, it is shown that statistical uncertainties are significantly reduced when machine-learned flows are incorporated as compared with the same calculations performed with uncorrelated ensembles or direct reweighting.
翻訳日:2024-05-30 03:47:50 公開日:2024-05-28
# Redditの大規模な非プラットフォーム化作戦の効力と意図しない結果

The Great Ban: Efficacy and Unintended Consequences of a Massive Deplatforming Operation on Reddit ( http://arxiv.org/abs/2401.11254v5 )

ライセンス: Link先を確認
Lorenzo Cima, Amaury Trujillo, Marco Avvenuti, Stefano Cresci, (参考訳) オンラインの悪用や害の現場では、安全で包括的なオンライン空間を育むために効果的なコンテンツモデレーションが必要である。 しかし、多くのモデレーション介入の有効性はまだ不明である。 ここでは、Reddit上で2000近いコミュニティに影響を及ぼした大規模な非プラットフォーム運用であるThe Great Banの有効性を評価する。 14ヶ月の間に17万のユーザーが投稿した16万件のコメントを分析して、この禁止が望まれているか、その他のかたちで、詳細な結果を提供する。 主な発見は、影響を受けたユーザーの15.6%がRedditを離れ、その毒性を平均6.6%減らしたことである。 この禁止により、5%のユーザーがプレバンレベルの70%以上の毒性を増すことになった。 全体として、当社の多面的結果は、デプラットフォームの有効性に関する新たな洞察を与えてくれます。 このようなことから,今後のモデレーション介入の進展とオンラインプラットフォームに対する規制の進展が示唆される。

In the current landscape of online abuses and harms, effective content moderation is necessary to cultivate safe and inclusive online spaces. Yet, the effectiveness of many moderation interventions is still unclear. Here, we assess the effectiveness of The Great Ban, a massive deplatforming operation that affected nearly 2,000 communities on Reddit. By analyzing 16M comments posted by 17K users during 14 months, we provide nuanced results on the effects, both desired and otherwise, of the ban. Among our main findings is that 15.6% of the affected users left Reddit and that those who remained reduced their toxicity by 6.6% on average. The ban also caused 5% users to increase their toxicity by more than 70% of their pre-ban level. Overall, our multifaceted results provide new insights into the efficacy of deplatforming. As such, our findings can inform the development of future moderation interventions and the policing of online platforms.
翻訳日:2024-05-30 03:47:50 公開日:2024-05-28
# MF-AED-AEC:マルチモーダルフュージョンを利用した音声感情認識、アラー誤差検出、およびアラー誤差補正

MF-AED-AEC: Speech Emotion Recognition by Leveraging Multimodal Fusion, Asr Error Detection, and Asr Error Correction ( http://arxiv.org/abs/2401.13260v2 )

ライセンス: Link先を確認
Jiajun He, Xiaohan Shi, Xingfeng Li, Tomoki Toda, (参考訳) 音声感情認識(SER)における一般的なアプローチは、話者の感情を包括的に識別するために、音声情報とテキスト情報の両方を統合することである。 このアプローチの重要な問題は、テキストモダリティからのASRエラーがSERの性能を悪化させることである。 従来の研究では、補助的なASRエラー検出タスクを用いて、各単語の重みをASR仮説に適応的に割り当てることが提案されている。 しかし,本手法はテキスト中の意味情報の一貫性に対処しないため,改善可能性に制限がある。 さらに、異なるモジュラリティの固有の不均一性は、それらの表現間の分配ギャップを生じさせ、融合を困難にする。 そこで本稿では、ASRテキストのセマンティックコヒーレンスを高めるために、ASRエラー検出(AED)とASRエラー補正(AEC)という2つの補助タスクを組み込み、また、モダリティ間の共有表現を学習するための新しいマルチモーダル融合(MF)手法を導入する。 本手法をMF-AED-AECと呼ぶ。 実験の結果、MF-AED-AECはベースラインモデルのマージン4.1\%を大きく上回ることがわかった。

The prevalent approach in speech emotion recognition (SER) involves integrating both audio and textual information to comprehensively identify the speaker's emotion, with the text generally obtained through automatic speech recognition (ASR). An essential issue of this approach is that ASR errors from the text modality can worsen the performance of SER. Previous studies have proposed using an auxiliary ASR error detection task to adaptively assign weights of each word in ASR hypotheses. However, this approach has limited improvement potential because it does not address the coherence of semantic information in the text. Additionally, the inherent heterogeneity of different modalities leads to distribution gaps between their representations, making their fusion challenging. Therefore, in this paper, we incorporate two auxiliary tasks, ASR error detection (AED) and ASR error correction (AEC), to enhance the semantic coherence of ASR text, and further introduce a novel multi-modal fusion (MF) method to learn shared representations across modalities. We refer to our method as MF-AED-AEC. Experimental results indicate that MF-AED-AEC significantly outperforms the baseline model by a margin of 4.1\%.
翻訳日:2024-05-30 03:47:50 公開日:2024-05-28
# MM-LLM:マルチモーダル大言語モデルの最近の進歩

MM-LLMs: Recent Advances in MultiModal Large Language Models ( http://arxiv.org/abs/2401.13601v5 )

ライセンス: Link先を確認
Duzhen Zhang, Yahan Yu, Jiahua Dong, Chenxing Li, Dan Su, Chenhui Chu, Dong Yu, (参考訳) 過去1年間で、MM-LLM(MultiModal Large Language Models)は大幅に進歩し、MM入力やアウトプットをコスト効率のよいトレーニング戦略を通じてサポートするために、既製のLLMを拡張した。 結果として得られたモデルは、LLMの固有の推論と意思決定能力を保持するだけでなく、様々なMMタスクの強化にも寄与する。 本稿では,MM-LLMのさらなる研究を促進するための総合的な調査を行う。 まず、モデルアーキテクチャとトレーニングパイプラインのための一般的な設計の定式化について概説する。 その後,126個のMM-LLMを包含する分類法を導入し,それぞれにその特異な定式化を特徴とする。 さらに,主要なベンチマークで選択したMM-LLMの性能を概観し,MM-LLMの有効性を高めるための鍵となるトレーニングレシピを要約する。 最後に,MM-LLMの今後の方向性を検討するとともに,現場の最新開発のためのリアルタイム追跡Webサイトを同時に維持する。 この調査がMM-LLMsドメインの継続的な進歩に寄与することを願っている。

In the past year, MultiModal Large Language Models (MM-LLMs) have undergone substantial advancements, augmenting off-the-shelf LLMs to support MM inputs or outputs via cost-effective training strategies. The resulting models not only preserve the inherent reasoning and decision-making capabilities of LLMs but also empower a diverse range of MM tasks. In this paper, we provide a comprehensive survey aimed at facilitating further research of MM-LLMs. Initially, we outline general design formulations for model architecture and training pipeline. Subsequently, we introduce a taxonomy encompassing 126 MM-LLMs, each characterized by its specific formulations. Furthermore, we review the performance of selected MM-LLMs on mainstream benchmarks and summarize key training recipes to enhance the potency of MM-LLMs. Finally, we explore promising directions for MM-LLMs while concurrently maintaining a real-time tracking website for the latest developments in the field. We hope that this survey contributes to the ongoing advancement of the MM-LLMs domain.
翻訳日:2024-05-30 03:47:50 公開日:2024-05-28
# アルゴリズムシステムの保証監査のためのフレームワーク

A Framework for Assurance Audits of Algorithmic Systems ( http://arxiv.org/abs/2401.14908v2 )

ライセンス: Link先を確認
Khoa Lam, Benjamin Lange, Borhane Blili-Hamelin, Jovana Davidovic, Shea Brown, Ali Hasan, (参考訳) 人工知能(AI)システムの透明性と説明責任を達成するメカニズムとして、AI監査を提案する規制が増えている。 様々な形のAI監査に関するいくつかの規範にもかかわらず、コンプライアンスと保証の目的のための監査は、現在合意された慣行、手続き、分類学、標準を欠いている。 本稿では,運用可能なコンプライアンスおよび保証外部監査フレームワークとして,基準監査を提案する。 我々は、金融監査のプラクティス後のこのアプローチの要素をモデル化し、AI監査も同様に、AI組織が人的価値を害し維持する手段でアルゴリズムを管理する能力について、ステークホルダーに保証を提供するべきだ、と論じている。 我々は,基準監査に必要な条件について議論し,実際に監査を行うための手続き的青写真を提供する。 本稿では,2021年のニューヨーク市地方法144条に要求される,顕微鏡内採用アルゴリズムにおけるバイアス監査の基準を導出することにより,この枠組みを現行の規制に適合させる方法について述べる。 私たちは、より成熟した金融監査産業のプラクティスを、品質保証問題に対する堅牢なガードレールが出現し始めているAI監査に適用するという、メリット、固有の制限、実装上の課題について、批判的な議論をすることで締めくくります。 これらの監査を実践した経験から得られた議論は、監査エコシステムが監査の有効性を確実にする上で果たす重要な役割を強調します。

An increasing number of regulations propose AI audits as a mechanism for achieving transparency and accountability for artificial intelligence (AI) systems. Despite some converging norms around various forms of AI auditing, auditing for the purpose of compliance and assurance currently lacks agreed-upon practices, procedures, taxonomies, and standards. We propose the criterion audit as an operationalizable compliance and assurance external audit framework. We model elements of this approach after financial auditing practices, and argue that AI audits should similarly provide assurance to their stakeholders about AI organizations' ability to govern their algorithms in ways that mitigate harms and uphold human values. We discuss the necessary conditions for the criterion audit and provide a procedural blueprint for performing an audit engagement in practice. We illustrate how this framework can be adapted to current regulations by deriving the criteria on which bias audits can be performed for in-scope hiring algorithms, as required by the recently effective New York City Local Law 144 of 2021. We conclude by offering a critical discussion on the benefits, inherent limitations, and implementation challenges of applying practices of the more mature financial auditing industry to AI auditing where robust guardrails against quality assurance issues are only starting to emerge. Our discussion -- informed by experiences in performing these audits in practice -- highlights the critical role that an audit ecosystem plays in ensuring the effectiveness of audits.
翻訳日:2024-05-30 03:47:50 公開日:2024-05-28
# 歴史を意識した会話難読度検索

History-Aware Conversational Dense Retrieval ( http://arxiv.org/abs/2401.16659v3 )

ライセンス: Link先を確認
Fengran Mo, Chen Qu, Kelong Mao, Tianyu Zhu, Zhan Su, Kaiyu Huang, Jian-Yun Nie, (参考訳) 対話型検索は,ユーザとシステム間のマルチターンインタラクションを可能にすることで,複雑な情報検索を容易にする。 このようなインタラクションをサポートするには、過去の情報に基づいて優れた検索クエリを定式化するために、会話入力を包括的に理解する必要がある。 特に、検索クエリには、前の会話のターンから関連する情報を含めるべきである。 しかし、近年の会話高密度検索のアプローチは、主に、会話検索セッション全体を用いて訓練済みのアドホック検索を微調整することに頼っている。 さらに、既存のアプローチは、既存のデータセットにおける手動の監視信号の量によって制限される。 上記の課題に対処するため, 歴史的ターンの実際の影響に基づいて, 文脈決定型クエリ再構成と監視信号の自動マイニングという2つのアイデアを取り入れた, 歴史認識型会話用Dense Retrieval (HAConvDR) システムを提案する。 2つの公開会話検索データセットの実験は、HAConvDRの履歴モデリング機能の改善を実証している。

Conversational search facilitates complex information retrieval by enabling multi-turn interactions between users and the system. Supporting such interactions requires a comprehensive understanding of the conversational inputs to formulate a good search query based on historical information. In particular, the search query should include the relevant information from the previous conversation turns. However, current approaches for conversational dense retrieval primarily rely on fine-tuning a pre-trained ad-hoc retriever using the whole conversational search session, which can be lengthy and noisy. Moreover, existing approaches are limited by the amount of manual supervision signals in the existing datasets. To address the aforementioned issues, we propose a History-Aware Conversational Dense Retrieval (HAConvDR) system, which incorporates two ideas: context-denoised query reformulation and automatic mining of supervision signals based on the actual impact of historical turns. Experiments on two public conversational search datasets demonstrate the improved history modeling capability of HAConvDR, in particular for long conversations with topic shifts.
翻訳日:2024-05-30 03:47:50 公開日:2024-05-28
# 単元ミラー回路を用いた計測誘起絡み合い遷移の検出

Detecting Measurement-Induced Entanglement Transitions With Unitary Mirror Circuits ( http://arxiv.org/abs/2401.17367v2 )

ライセンス: Link先を確認
Yariv Yanay, Brian Swingle, Charles Tahan, (参考訳) 監視されたランダム回路は、2量子ゲートを交互に絡み合う層と、ある分数$p$の量子ビットに適用される射影的な単一量子ビットの測定から成り立っているが、近年の関心事である。 特に、結果として生じる定常状態は、高相関状態と「体積法則」の絡み合いが$p<p_{c}$から「面積法則」の絡み合いが$p>p_{c}$への位相遷移を示す。 アンサンブルレベルでは見えないため、この遷移に実験的にアクセスすることは困難である。 自然に観察するためには、測定結果の集合がそれ自身を繰り返すまで実験を繰り返す必要がある。 この問題を克服するため,我々は,投影回路の行列積状態(MPS)に基づく「ユニタリミラー」を生成するハイブリッド量子古典アルゴリズムを提案する。 多項式サイズのテンソルネットワークは、領域法的な絡み合いを持つ量子状態を表すことができるので、ユニタリミラーは、$p_{c}$以上の実験状態を十分に近似することができるが、指数関数的にそれ以下に失敗する。 これにより、この鏡の破片は臨界点を特定できる。 アルゴリズムの概要と,その方法について概説する。 我々は、MPSによってよく表現される任意の状態の最大エンタングルメントエントロピー上の有界性を示し、その有界性から、体積法相がどのように有界であるかを示唆する。 我々は、この絡み合いがMPSが失敗する下からも同様に束縛できるかどうか検討する。 最後に、小さな量子ビット数とランダムなクリフォードゲートを持つモニタ回路の数値結果を示す。

Monitored random circuits, consisting of alternating layers of entangling two-qubit gates and projective single-qubit measurements applied to some fraction $p$ of the qubits, have been a topic of recent interest. In particular, the resulting steady state exhibits a phase transition from highly correlated states with "volume-law" entanglement at $p<p_{c}$ to localized states with "area-law" entanglement at $p>p_{c}$. It is hard to access this transition experimentally, as it cannot be seen at the ensemble level. Naively, to observe it one must repeat the experiment until the set of measurement results repeats itself, with likelihood that is exponentially small in the number of measurements. To overcome this issue, we present a hybrid quantum-classical algorithm which creates a matrix product state (MPS) based "unitary mirror" of the projected circuit. Polynomial-sized tensor networks can represent quantum states with area-law entanglement, and so the unitary mirror can well-approximate the experimental state above $p_{c}$ but fails exponentially below it. The breaking of this mirror can thus pinpoint the critical point. We outline the algorithm and how such results would be obtained. We present a bound on the maximum entanglement entropy of any given state that is well-represented by an MPS, and from the bound suggest how the volume-law phase can be bounded. We consider whether the entanglement could similarly be bounded from below where the MPS fails. Finally, we present numerical results for small qubit numbers and for monitored circuits with random Clifford gates.
翻訳日:2024-05-30 03:47:50 公開日:2024-05-28
# 量子リップルキャリー加算器と比較器におけるTおよびCNOTゲートの最適化

Optimizing T and CNOT Gates in Quantum Ripple-Carry Adders and Comparators ( http://arxiv.org/abs/2401.17921v3 )

ライセンス: Link先を確認
Maxime Remaud, (参考訳) 2つのnビット数の追加と比較のためのリップルキャリー戦略を用いた量子回路の最先端技術と、CNOT-deepthとT-deepth、またはCNOT-countとT-countの両点でクリフォード+Tゲートセットの最適化について述べる。 特に,Cuccaro et al と Takahashi et al が提示した加算器を考慮し,元の回路を最適化することなく,T-depth 3n と CNOT-depth 8n の加算器を提示し,T-depth 6n を期待する。 ここでは、少なくとも1つのアンシラを用いた量子リップルキャリー加算器(Toffoli, Peres, TR)や測定を含む戦略の近似を伴わない点に注目した。

The state of the art of quantum circuits using the ripple-carry strategy for the addition and comparison of two n-bit numbers is presented, as well as optimizations in the Clifford+T gate set, both in terms of CNOT-depth and T-depth, or CNOT-count and T-count. In particular, we consider the adders presented by Cuccaro et al. and Takahashi et al., and exhibit an adder with a T-depth of 3n and a CNOT-depth of 8n, while without optimization of the original circuits, a T-depth of 6n is expected. Note that we have focused here on quantum ripple-carry adders using at most one ancilla, without any approximation of the 3-qubit gates involved (Toffoli, Peres and TR) or any strategy involving a measurement.
翻訳日:2024-05-30 03:47:50 公開日:2024-05-28
# データ効率のよいグラフ学習に関する調査研究

A Survey of Data-Efficient Graph Learning ( http://arxiv.org/abs/2402.00447v3 )

ライセンス: Link先を確認
Wei Ju, Siyu Yi, Yifan Wang, Qingqing Long, Junyu Luo, Zhiping Xiao, Ming Zhang, (参考訳) グラフ構造化データは、ソーシャルネットワークから生化学分析まで、様々な現実世界のシステムの基盤となっている。 グラフニューラルネットワークはこの種のデータモデリングの習熟度を示しているが、その成功はしばしば大量のラベル付きデータに依存しており、アノテーションリソースが限られている現実的なシナリオでは課題となっている。 この問題に対処するため,低リソース環境下でのグラフ機械学習の性能向上に多大な努力が注がれている。 本稿では,研究フロンティアとしてData-Efficient Graph Learning(DEGL)という新しい概念を紹介し,DEGLの現在の進歩をまとめた最初の調査を紹介する。 私たちは、大きなラベル付きデータでトレーニングモデルに固有の課題を強調し、DEGLへの探索の道を開くことで開始します。 次に、このトピックに関する最近の進歩を、自己教師付きグラフ学習、半教師付きグラフ学習、少数ショットグラフ学習など、いくつかの重要な側面から体系的にレビューする。 また,今後の研究の方向性を述べるとともに,グラフ機械学習の進化に寄与する。

Graph-structured data, prevalent in domains ranging from social networks to biochemical analysis, serve as the foundation for diverse real-world systems. While graph neural networks demonstrate proficiency in modeling this type of data, their success is often reliant on significant amounts of labeled data, posing a challenge in practical scenarios with limited annotation resources. To tackle this problem, tremendous efforts have been devoted to enhancing graph machine learning performance under low-resource settings by exploring various approaches to minimal supervision. In this paper, we introduce a novel concept of Data-Efficient Graph Learning (DEGL) as a research frontier, and present the first survey that summarizes the current progress of DEGL. We initiate by highlighting the challenges inherent in training models with large labeled data, paving the way for our exploration into DEGL. Next, we systematically review recent advances on this topic from several key aspects, including self-supervised graph learning, semi-supervised graph learning, and few-shot graph learning. Also, we state promising directions for future research, contributing to the evolution of graph machine learning.
翻訳日:2024-05-30 03:47:50 公開日:2024-05-28
# 減衰ステップサイズによるオンライン共形予測

Online conformal prediction with decaying step sizes ( http://arxiv.org/abs/2402.01139v2 )

ライセンス: Link先を確認
Anastasios N. Angelopoulos, Rina Foygel Barber, Stephen Bates, (参考訳) 本稿では, 減衰段数によるオンライン共形予測手法を提案する。 従来の方法と同様に、任意のシーケンスに対するカバレッジのリフレクションが保証されています。 しかし、従来の方法とは違って、人口量の推定は同時に行うことができる。 我々の理論と実験は、特に、分布が安定な場合、その範囲は観測されたシーケンスの平均だけでなく、各時点の所望のレベルに近づいたことを示唆している。

We introduce a method for online conformal prediction with decaying step sizes. Like previous methods, ours possesses a retrospective guarantee of coverage for arbitrary sequences. However, unlike previous methods, we can simultaneously estimate a population quantile when it exists. Our theory and experiments indicate substantially improved practical properties: in particular, when the distribution is stable, the coverage is close to the desired level for every time point, not just on average over the observed sequence.
翻訳日:2024-05-30 03:38:05 公開日:2024-05-28
# カーネル・固有ペアスパース変分ガウス過程による自己注意

Self-Attention through Kernel-Eigen Pair Sparse Variational Gaussian Processes ( http://arxiv.org/abs/2402.01476v2 )

ライセンス: Link先を確認
Yingyi Chen, Qinghua Tao, Francesco Tonin, Johan A. K. Suykens, (参考訳) トランスフォーマーの優れた能力は予測精度を大幅に向上させるが、過度に信頼された予測を導き、ガウス過程(GP)に対処できる校正された不確実性推定を必要とする可能性がある。 既存の研究は、アテンションカーネルに対する変分推論の下で対称核を持つGPを適用するが、アテンションカーネルが本質的に非対称であるという事実を省略する。 さらに、GP後部を導出する複雑さは、大規模データにとって依然として高い。 本稿では,Kernel SVD(KSVD)により注目カーネルの非対称性が取り組まれる不確実性を考慮した自己アテンションを構築するためのKEP-SVGP(Kernel-Eigen Pair Sparse Variational Gaussian Processs)を提案する。 略称KEP-SVGP。 i) KSVD w.r.t.の2つの特異ベクトルの集合によって誘導されるSVGP対。注目核は非対称性を完全に特徴づける。 二 SVGP後縁の導出は、KSVDからの一組の随伴固有関数のみを用いて、特異値を含む対角行列の逆転に基づいて、時間的複雑さの低減に寄与することができる。 三 変動パラメータ及びネットワーク重み付けを最適化できるように、下限の証拠を導出すること。 In-distriion, distribution-shift, out-of-distriionベンチマークにおける優れた性能と効率を検証した。

While the great capability of Transformers significantly boosts prediction accuracy, it could also yield overconfident predictions and require calibrated uncertainty estimation, which can be commonly tackled by Gaussian processes (GPs). Existing works apply GPs with symmetric kernels under variational inference to the attention kernel; however, omitting the fact that attention kernels are in essence asymmetric. Moreover, the complexity of deriving the GP posteriors remains high for large-scale data. In this work, we propose Kernel-Eigen Pair Sparse Variational Gaussian Processes (KEP-SVGP) for building uncertainty-aware self-attention where the asymmetry of attention kernels is tackled by Kernel SVD (KSVD) and a reduced complexity is acquired. Through KEP-SVGP, i) the SVGP pair induced by the two sets of singular vectors from KSVD w.r.t. the attention kernel fully characterizes the asymmetry; ii) using only a small set of adjoint eigenfunctions from KSVD, the derivation of SVGP posteriors can be based on the inversion of a diagonal matrix containing singular values, contributing to a reduction in time complexity; iii) an evidence lower bound is derived so that variational parameters and network weights can be optimized with it. Experiments verify our excellent performances and efficiency on in-distribution, distribution-shift and out-of-distribution benchmarks.
翻訳日:2024-05-30 03:38:05 公開日:2024-05-28
# ドットの接続: モード接続性はベイズニューラルネットワークにおける可能なサンプルベース推論の鍵か?

Connecting the Dots: Is Mode-Connectedness the Key to Feasible Sample-Based Inference in Bayesian Neural Networks? ( http://arxiv.org/abs/2402.01484v2 )

ライセンス: Link先を確認
Emanuel Sommer, Lisa Wimmer, Theodore Papamarkou, Ludwig Bothmann, Bernd Bischl, David Rügamer, (参考訳) ベイズニューラルネットワークに対するサンプルベース推論(SBI)における大きな課題は、ネットワークのパラメータ空間のサイズと構造である。 本研究は, 過パラメータ化とサンプリング問題の難易度を体系的に関連付けることにより, 重量と関数空間の特性的関係を取り入れることにより, SBIを成功させることが可能であることを示す。 広範囲な実験を通じて,サンプリングおよび収束診断の実践的ガイドラインを確立する。 その結果、競合性能と不確実性定量化に有効な解法として、ディープアンサンブル初期化手法を提案する。

A major challenge in sample-based inference (SBI) for Bayesian neural networks is the size and structure of the networks' parameter space. Our work shows that successful SBI is possible by embracing the characteristic relationship between weight and function space, uncovering a systematic link between overparameterization and the difficulty of the sampling problem. Through extensive experiments, we establish practical guidelines for sampling and convergence diagnosis. As a result, we present a deep ensemble initialized approach as an effective solution with competitive performance and uncertainty quantification.
翻訳日:2024-05-30 03:38:05 公開日:2024-05-28
# 量子イマジナリー時間進化による連結非線形シュレーディンガー方程式の解法

Solving coupled Non-linear Schrödinger Equations via Quantum Imaginary Time Evolution ( http://arxiv.org/abs/2402.01623v2 )

ライセンス: Link先を確認
Yang Hong Li, Jim Al-Khalili, Paul Stevenson, (参考訳) 結合された非線形Schr\"{o}dinger方程式は多くの粒子系の力学を記述するのに不可欠である。 核ハートリー・フォック方程式の場合、そのような方程式の解として量子想像時間進化(ITE)アルゴリズムを提案する。 単純化されたスカイム相互作用モデルの下で、酸素-16核の基底状態エネルギーを計算し、その結果が古典的ITTアルゴリズムと一致することを示す。

Coupled non-linear Schr\"{o}dinger equations are crucial in describing dynamics of many particle systems. We present a quantum imaginary time evolution (ITE) algorithm as a solution to such equations in the case of nuclear Hartree-Fock equations. Under a simplified Skyrme interaction model, we calculate the ground state energy of an oxygen-16 nucleus and demonstrate that the result is in agreement with the classical ITE algorithm.
翻訳日:2024-05-30 03:38:05 公開日:2024-05-28
# 大規模言語モデルからニューラルネットワークへの生態的優先順位の注入による人間的なカテゴリー学習

Human-like Category Learning by Injecting Ecological Priors from Large Language Models into Neural Networks ( http://arxiv.org/abs/2402.01821v2 )

ライセンス: Link先を確認
Akshay K. Jagadish, Julian Coda-Forno, Mirko Thalmann, Eric Schulz, Marcel Binz, (参考訳) エコロジー的合理性(Ecoological rationality)とは、人間は環境に適応した合理的エージェントである、という概念を指す。 しかしながら、この理論を検証することは、どのタスクがエコロジー的に有効かを定義するのが困難であることと、これらのタスクに合理的なモデルを構築することの2つの理由から難しいままである。 本研究では,大規模言語モデルが実世界の課題の統計に合致する認知タスク,特にカテゴリ学習タスクを生成できることを示し,最初の課題に対処する。 本稿では,これらの課題に適応した有理的エージェントをメタラーニングの枠組みを用いて導き,生態学的に合理的なメタラーニング推論(ERMI)と呼ばれるモデルのクラスに導出する。 ERMIは2つの異なる実験で、人間のデータを他の7つの認知モデルより定量的に説明します。 さらに、質的なレベルで人間の行動にマッチする:(1)人間が難しいと感じるのと同じタスクを見つけ、(2)学習でカテゴリーを割り当てる模範的な戦略に頼りやすくなり、(3)人間のような方法で見えない刺激に一般化する。 さらに、ERMIの生態学的に有効な事前評価により、OpenML-CC18分類ベンチマークで最先端のパフォーマンスを達成することができることを示す。

Ecological rationality refers to the notion that humans are rational agents adapted to their environment. However, testing this theory remains challenging due to two reasons: the difficulty in defining what tasks are ecologically valid and building rational models for these tasks. In this work, we demonstrate that large language models can generate cognitive tasks, specifically category learning tasks, that match the statistics of real-world tasks, thereby addressing the first challenge. We tackle the second challenge by deriving rational agents adapted to these tasks using the framework of meta-learning, leading to a class of models called ecologically rational meta-learned inference (ERMI). ERMI quantitatively explains human data better than seven other cognitive models in two different experiments. It additionally matches human behavior on a qualitative level: (1) it finds the same tasks difficult that humans find difficult, (2) it becomes more reliant on an exemplar-based strategy for assigning categories with learning, and (3) it generalizes to unseen stimuli in a human-like way. Furthermore, we show that ERMI's ecologically valid priors allow it to achieve state-of-the-art performance on the OpenML-CC18 classification benchmark.
翻訳日:2024-05-30 03:38:05 公開日:2024-05-28
# 音声フラミンゴ: 少ないショット学習と対話能力を備えた新しい音声言語モデル

Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities ( http://arxiv.org/abs/2402.01831v3 )

ライセンス: Link先を確認
Zhifeng Kong, Arushi Goel, Rohan Badlani, Wei Ping, Rafael Valle, Bryan Catanzaro, (参考訳) LLMの多様な実世界の応用において、音声(非音声音声や非言語音声など)を理解するための大規模言語モデル(LLM)の強化が重要である。 本稿では,新しい音声言語モデルであるAudio Flamingoを提案する。 1)強い音声理解能力。 2【文脈内学習・検索による見知らぬ課題に迅速に適応できる能力】 3) 強いマルチターン対話能力。 これらの能力でモデルを強化するために、一連のトレーニングテクニック、アーキテクチャ設計、データストラテジーを導入します。 各種音声理解タスクの広範囲な評価により,本手法の有効性が確認され,新しい最先端のベンチマークが設定された。 私たちのデモウェブサイトはhttps://audioflamingo.github.io/で、コードはhttps://github.com/NVIDIA/audio-flamingo.comでオープンソース化されています。

Augmenting large language models (LLMs) to understand audio -- including non-speech sounds and non-verbal speech -- is critically important for diverse real-world applications of LLMs. In this paper, we propose Audio Flamingo, a novel audio language model with 1) strong audio understanding abilities, 2) the ability to quickly adapt to unseen tasks via in-context learning and retrieval, and 3) strong multi-turn dialogue abilities. We introduce a series of training techniques, architecture design, and data strategies to enhance our model with these abilities. Extensive evaluations across various audio understanding tasks confirm the efficacy of our method, setting new state-of-the-art benchmarks. Our demo website is https://audioflamingo.github.io/ and the code is open-sourced at https://github.com/NVIDIA/audio-flamingo.
翻訳日:2024-05-30 03:38:05 公開日:2024-05-28
# 弱視から学ぶための一般的なフレームワーク

A General Framework for Learning from Weak Supervision ( http://arxiv.org/abs/2402.01922v2 )

ライセンス: Link先を確認
Hao Chen, Jindong Wang, Lei Feng, Xiang Li, Yidong Wang, Xing Xie, Masashi Sugiyama, Rita Singh, Bhiksha Raj, (参考訳) 弱い教師付き学習は、様々なシナリオに適用可能な課題に直面している。 本稿では、新しいアルゴリズムを用いて、弱監督(GLWS)から学習するための一般的な枠組みを紹介する。 GLWSの中心は期待最大化(EM)の定式化であり、サンプル部分ラベル、集約統計、ペアワイズ観測、ラベルなしデータなど、様々な弱い監督ソースを順調に収容している。 さらに,非決定論的有限オートマトン (NFA) とフォワードバックワードアルゴリズムを用いて,EM計算要求を大幅に単純化するアルゴリズムを提案する。 したがって、任意の弱監督から学習する問題は、それらのNFAモデリングに変換される。 GLWSは機械学習モデルのスケーラビリティを向上するだけでなく、11の弱い監視シナリオで優れたパフォーマンスと汎用性を示す。 この分野でのさらなる進歩と実践的な展開の道を開くことを願っています。

Weakly supervised learning generally faces challenges in applicability to various scenarios with diverse weak supervision and in scalability due to the complexity of existing algorithms, thereby hindering the practical deployment. This paper introduces a general framework for learning from weak supervision (GLWS) with a novel algorithm. Central to GLWS is an Expectation-Maximization (EM) formulation, adeptly accommodating various weak supervision sources, including instance partial labels, aggregate statistics, pairwise observations, and unlabeled data. We further present an advanced algorithm that significantly simplifies the EM computational demands using a Non-deterministic Finite Automaton (NFA) along with a forward-backward algorithm, which effectively reduces time complexity from quadratic or factorial often required in existing solutions to linear scale. The problem of learning from arbitrary weak supervision is therefore converted to the NFA modeling of them. GLWS not only enhances the scalability of machine learning models but also demonstrates superior performance and versatility across 11 weak supervision scenarios. We hope our work paves the way for further advancements and practical deployment in this field.
翻訳日:2024-05-30 03:38:05 公開日:2024-05-28
# マルチタスクモデル統合のための表現手術

Representation Surgery for Multi-Task Model Merging ( http://arxiv.org/abs/2402.02705v2 )

ライセンス: Link先を確認
Enneng Yang, Li Shen, Zhenyi Wang, Guibing Guo, Xiaojun Chen, Xingwei Wang, Dacheng Tao, (参考訳) マルチタスク学習(MTL)は、複数のタスクから情報を統一されたバックボーンに圧縮し、計算効率と一般化を改善する。 最近の研究は、複数の独立して訓練されたモデルをマージして、共同トレーニングのために生データを収集する代わりにMTLを実行することで、MTLの応用シナリオを大幅に拡張している。 しかし、既存のモデルマージスキームの表現分布を可視化することにより、マージモデルはしばしば表現バイアスのジレンマに悩まされる。 つまり、マージされたモデルと個々のモデルの表現分布には大きな違いがあり、結果としてマージされたMTLの性能は低下する。 本稿では,統合モデルにおける表現バイアスを低減するために,Surgeryと呼ばれる表現手術ソリューションを提案する。 特に、手術は、マージされたモデルの表現を入力とし、マージされたモデルから表現に含まれるバイアスを出力しようとする軽量なタスク固有モジュールである。 そこで我々は,統合モデルの表現と個々のモデルの表現との距離を最小化し,手術モジュールを更新する教師なし最適化目標を設計した。 手術モジュールをSOTA(State-of-the-art Model merging scheme)に適用した場合のMTL性能は有意に向上した。

Multi-task learning (MTL) compresses the information from multiple tasks into a unified backbone to improve computational efficiency and generalization. Recent work directly merges multiple independently trained models to perform MTL instead of collecting their raw data for joint training, greatly expanding the application scenarios of MTL. However, by visualizing the representation distribution of existing model merging schemes, we find that the merged model often suffers from the dilemma of representation bias. That is, there is a significant discrepancy in the representation distribution between the merged and individual models, resulting in poor performance of merged MTL. In this paper, we propose a representation surgery solution called "Surgery" to reduce representation bias in the merged model. Specifically, Surgery is a lightweight task-specific module that takes the representation of the merged model as input and attempts to output the biases contained in the representation from the merged model. We then designed an unsupervised optimization objective that updates the Surgery module by minimizing the distance between the merged model's representation and the individual model's representation. Extensive experiments demonstrate significant MTL performance improvements when our Surgery module is applied to state-of-the-art (SOTA) model merging schemes.
翻訳日:2024-05-30 03:38:05 公開日:2024-05-28
# Toon Aging: アート・ポートレート・スタイルのトランスファーで顔の再老化

ToonAging: Face Re-Aging upon Artistic Portrait Style Transfer ( http://arxiv.org/abs/2402.02733v4 )

ライセンス: Link先を確認
Bumsoo Kim, Abdul Muqeet, Kyuchul Lee, Sanghyun Seo, (参考訳) 顔の再描画はコンピュータビジョンとグラフィックスにおいて顕著な分野であり、映画、広告、ライブストリーミングといったフォトリアリスティックな領域で重要な応用がある。 近年,漫画やイラスト,アニメーションといったノンフォトリアリスティックなイメージに顔のリエイジを適用する必要性が,様々なエンターテイメント分野の延長として現れている。 しかし、NPR画像の見かけの年齢をシームレスに編集できるネットワークがないため、これらのタスクは単純でシーケンシャルなアプローチに制限されている。 これはしばしば、ドメインの相違による不快なアーティファクトと顔の特徴の喪失をもたらす。 本稿では,1つの生成ステップで実行される顔のリエイジングとポートレートスタイルのトランスファーを組み合わせた,新しい1段階の顔のリエイジング手法を提案する。 同じPRドメイン内でトレーニングされた既存の顔のリエイジとスタイル転送ネットワークを活用します。 本手法は, 老化関連属性とNPRの出現を管理するために, それぞれ異なる潜伏ベクトルを融合させる。 模範的なアプローチを採用することで、通常、各ドメインに対して個別のトレーニングや微調整を必要とするドメインレベルの微調整アプローチに比べて、柔軟性が向上する。 これは、再使用のためのペアデータセットと、スタイリングのためのドメインレベルのデータ駆動アプローチの制限に効果的に対処する。 実験により,本モデルでは,自然の外観と可制御性の両方を維持しつつ,サンプルのスタイルを同時に転送しながら,再老化画像を生成することが可能であることが確認された。

Face re-aging is a prominent field in computer vision and graphics, with significant applications in photorealistic domains such as movies, advertising, and live streaming. Recently, the need to apply face re-aging to non-photorealistic images, like comics, illustrations, and animations, has emerged as an extension in various entertainment sectors. However, the lack of a network that can seamlessly edit the apparent age in NPR images has limited these tasks to a naive, sequential approach. This often results in unpleasant artifacts and a loss of facial attributes due to domain discrepancies. In this paper, we introduce a novel one-stage method for face re-aging combined with portrait style transfer, executed in a single generative step. We leverage existing face re-aging and style transfer networks, both trained within the same PR domain. Our method uniquely fuses distinct latent vectors, each responsible for managing aging-related attributes and NPR appearance. By adopting an exemplar-based approach, our method offers greater flexibility compared to domain-level fine-tuning approaches, which typically require separate training or fine-tuning for each domain. This effectively addresses the limitation of requiring paired datasets for re-aging and domain-level, data-driven approaches for stylization. Our experiments show that our model can effortlessly generate re-aged images while simultaneously transferring the style of examples, maintaining both natural appearance and controllability.
翻訳日:2024-05-30 03:38:05 公開日:2024-05-28
# InterpretCC: 専門家のグローバルな混合による内在的ユーザ中心の解釈可能性

InterpretCC: Intrinsic User-Centric Interpretability through Global Mixture of Experts ( http://arxiv.org/abs/2402.02933v2 )

ライセンス: Link先を確認
Vinitra Swamy, Syrielle Montariol, Julian Blackwell, Jibril Frej, Martin Jaggi, Tanja Käser, (参考訳) ニューラルネットワークの解釈可能性とは,3つの重要な要件のトレードオフである。 1)説明の忠実さ(すなわち、それが予測をいかに完璧に説明しているか) 2)人間による説明の理解可能性,及び 3)モデル性能。 例えば、ポストホックなアプローチは、限定された忠実さを提供し、機能マスクの妥協の可否を自動的に識別し、決定木のような本質的に解釈可能なメソッドはモデルのパフォーマンスを制限します。 これらの欠点は、信頼できる説明、実行可能な解釈、正確な予測を必要とする教育や医療のようなセンシティブな応用には受け入れられない。 本研究では,人間中心の解釈可能性を保証する解釈可能なニューラルネットワークのファミリであるInterpretCC(解釈条件計算)を提案する。 我々は、このアイデアを解釈可能なグローバル・ミックス・オブ・エキスパート(MoE)モデルに拡張し、人間が興味のあるトピックを指定できるようにし、各データポイントの特徴空間をトピックのサブネットに個別に分離し、これらのトピックのサブネットを適応的かつ疎結合にアクティベートして予測する。 本研究では,テキスト,時系列,表形式のデータに対するInterpretCCアーキテクチャのバリエーションを適用し,非解釈可能なベースラインと同等の性能を示し,解釈可能な設計ベースラインよりも優れた性能を示し,ユーザ調査により高い動作性と有用性を示す。

Interpretability for neural networks is a trade-off between three key requirements: 1) faithfulness of the explanation (i.e., how perfectly it explains the prediction), 2) understandability of the explanation by humans, and 3) model performance. Most existing methods compromise one or more of these requirements; e.g., post-hoc approaches provide limited faithfulness, automatically identified feature masks compromise understandability, and intrinsically interpretable methods such as decision trees limit model performance. These shortcomings are unacceptable for sensitive applications such as education and healthcare, which require trustworthy explanations, actionable interpretations, and accurate predictions. In this work, we present InterpretCC (interpretable conditional computation), a family of interpretable-by-design neural networks that guarantee human-centric interpretability, while maintaining comparable performance to state-of-the-art models by adaptively and sparsely activating features before prediction. We extend this idea into an interpretable, global mixture-of-experts (MoE) model that allows humans to specify topics of interest, discretely separates the feature space for each data point into topical subnetworks, and adaptively and sparsely activates these topical subnetworks for prediction. We apply variations of the InterpretCC architecture for text, time series and tabular data across several real-world benchmarks, demonstrating comparable performance with non-interpretable baselines, outperforming interpretable-by-design baselines, and showing higher actionability and usefulness according to a user study.
翻訳日:2024-05-30 03:38:05 公開日:2024-05-28
# 事前学習型パラダイムにおけるクロスタスク線形性の出現について

On the Emergence of Cross-Task Linearity in the Pretraining-Finetuning Paradigm ( http://arxiv.org/abs/2402.03660v2 )

ライセンス: Link先を確認
Zhanpeng Zhou, Zijun Chen, Yilan Chen, Bo Zhang, Junchi Yan, (参考訳) プレトレーニング・ファインタニングのパラダイムは、現代のディープラーニングの主流となっている。 本研究では,共通の事前学習されたチェックポイントから初期化され,CTL(Cross-Task Linearity)と呼ばれるさまざまなタスクに微調整されたモデルにおいて,興味深い線形現象を発見する。 具体的には、2つの微調整モデルの重みを線形に補間すると、重み補間モデルの特徴は各層における2つの微調整モデルの特徴の線形補間とほぼ等しいことが示される。 我々は、CTLが、同じ事前訓練されたチェックポイントから始まる微調整モデルに対して一貫して発生することを裏付ける包括的な実証的証拠を提供する。 プレトレーニング-ファインタニングのパラダイムでは、ニューラルネットワークは、パラメータ空間から特徴空間への写像である線形写像として概ね機能する。 この観点から,本研究では,モデルマージ/編集について,特にパラメータ空間から特徴空間へ操作を変換することによって,新たな知見を提示する。 さらに,CTLの出現の根本原因を深く掘り下げ,事前学習の役割を強調した。

The pretraining-finetuning paradigm has become the prevailing trend in modern deep learning. In this work, we discover an intriguing linear phenomenon in models that are initialized from a common pretrained checkpoint and finetuned on different tasks, termed as Cross-Task Linearity (CTL). Specifically, we show that if we linearly interpolate the weights of two finetuned models, the features in the weight-interpolated model are often approximately equal to the linear interpolation of features in two finetuned models at each layer. We provide comprehensive empirical evidence supporting that CTL consistently occurs for finetuned models that start from the same pretrained checkpoint. We conjecture that in the pretraining-finetuning paradigm, neural networks approximately function as linear maps, mapping from the parameter space to the feature space. Based on this viewpoint, our study unveils novel insights into explaining model merging/editing, particularly by translating operations from the parameter space to the feature space. Furthermore, we delve deeper into the root cause for the emergence of CTL, highlighting the role of pretraining.
翻訳日:2024-05-30 03:38:05 公開日:2024-05-28
# インボディードAIへの呼びかけ

A call for embodied AI ( http://arxiv.org/abs/2402.03824v2 )

ライセンス: Link先を確認
Giuseppe Paolo, Jonas Gonzalez-Billandon, Balázs Kégl, (参考訳) 我々は、人工知能の追求における次の基本的なステップとして、Embodied AIを提案する。 我々は、哲学、心理学、神経科学、ロボティクスといった様々な分野にまたがるエンボディメントの概念の進化を横切り、EAIが静的学習の古典的パラダイムとどのように区別するかを強調する。 Embodied AIの範囲を広げることで、認知アーキテクチャに基づいた理論的枠組みを導入し、認知、行動、記憶、学習をエンボディエージェントの本質的な構成要素として強調する。 このフレームワークはFristonのアクティブな推論原則と一致しており、EAI開発に対する包括的なアプローチを提供する。 AIの分野での進歩にもかかわらず、新しいAI学習理論の定式化や高度なハードウェアの革新といった大きな課題が続いている。 私たちの議論は、将来のEmbodied AI研究の基礎となるガイドラインを概説している。 現実の環境における人間や他の知的なエンティティとのシームレスなコミュニケーション、コラボレーション、共存が可能なエンボダイドAIエージェントを作成することの重要性を強調し、我々はAIコミュニティを、多面的な課題に対処し、AGIの探求に先立つ機会をつかむことを目指しています。

We propose Embodied AI as the next fundamental step in the pursuit of Artificial General Intelligence, juxtaposing it against current AI advancements, particularly Large Language Models. We traverse the evolution of the embodiment concept across diverse fields - philosophy, psychology, neuroscience, and robotics - to highlight how EAI distinguishes itself from the classical paradigm of static learning. By broadening the scope of Embodied AI, we introduce a theoretical framework based on cognitive architectures, emphasizing perception, action, memory, and learning as essential components of an embodied agent. This framework is aligned with Friston's active inference principle, offering a comprehensive approach to EAI development. Despite the progress made in the field of AI, substantial challenges, such as the formulation of a novel AI learning theory and the innovation of advanced hardware, persist. Our discussion lays down a foundational guideline for future Embodied AI research. Highlighting the importance of creating Embodied AI agents capable of seamless communication, collaboration, and coexistence with humans and other intelligent entities within real-world environments, we aim to steer the AI community towards addressing the multifaceted challenges and seizing the opportunities that lie ahead in the quest for AGI.
翻訳日:2024-05-30 03:28:21 公開日:2024-05-28
# 信念のシーングラフ:期待の計算による部分的なシーンの拡張

Belief Scene Graphs: Expanding Partial Scenes with Objects through Computation of Expectation ( http://arxiv.org/abs/2402.03840v2 )

ライセンス: Link先を確認
Mario A. V. Saucedo, Akash Patel, Akshit Saradagi, Christoforos Kanellakis, George Nikolakopoulos, (参考訳) 本稿では,部分的な情報を用いた効率的なハイレベルタスク計画を可能にする,部分的な3次元シーングラフのユーティリティ駆動拡張であるBelief Scene Graphsの概念を提案する。 本稿では,任意の3次元シーングラフ上での信念の計算(期待と呼ばれる)のためのグラフベースの学習手法を提案する。 本稿では,学習データからヒストグラムを学習し,相関情報に基づく予測予測計算手法を提案する。 3次元シーングラフのレポジトリからCECIを学ぶために,新しいグラフ畳み込みニューラルネットワーク(GCN)モデルを開発した。 新たなCECIモデルのトレーニングには3Dシーングラフのデータベースが存在しないため,意味的に注釈付けされた実生活3D空間をベースとした3Dシーングラフデータセットを生成するための新しい手法を提案する。 生成されたデータセットを用いて提案したCECIモデルをトレーニングし,提案手法の広範な検証を行う。 我々は、期待を抽象表現に統合するためのコアコンポーネントとして、新しい概念である『textit{Belief Scene Graphs}』(BSG)を確立した。 この新しいコンセプトは、従来の3Dシーングラフの概念の進化であり、さまざまなロボティクスミッションのタスク計画と最適化のための高レベルの推論を可能にすることを目的としている。 全体フレームワークの有効性は、対象探索シナリオで評価され、また、人間の目に見えない物体の常識をエミュレートする実生活実験でもテストされている。 実験デモのビデオについては、以下のリンクを参照してください。

In this article, we propose the novel concept of Belief Scene Graphs, which are utility-driven extensions of partial 3D scene graphs, that enable efficient high-level task planning with partial information. We propose a graph-based learning methodology for the computation of belief (also referred to as expectation) on any given 3D scene graph, which is then used to strategically add new nodes (referred to as blind nodes) that are relevant to a robotic mission. We propose the method of Computation of Expectation based on Correlation Information (CECI), to reasonably approximate real Belief/Expectation, by learning histograms from available training data. A novel Graph Convolutional Neural Network (GCN) model is developed, to learn CECI from a repository of 3D scene graphs. As no database of 3D scene graphs exists for the training of the novel CECI model, we present a novel methodology for generating a 3D scene graph dataset based on semantically annotated real-life 3D spaces. The generated dataset is then utilized to train the proposed CECI model and for extensive validation of the proposed method. We establish the novel concept of \textit{Belief Scene Graphs} (BSG), as a core component to integrate expectations into abstract representations. This new concept is an evolution of the classical 3D scene graph concept and aims to enable high-level reasoning for task planning and optimization of a variety of robotics missions. The efficacy of the overall framework has been evaluated in an object search scenario, and has also been tested in a real-life experiment to emulate human common sense of unseen-objects. For a video of the article, showcasing the experimental demonstration, please refer to the following link: https://youtu.be/hsGlSCa12iY
翻訳日:2024-05-30 03:28:21 公開日:2024-05-28
# REBORN: 教師なしASRの反復訓練による強化学習境界セグメンテーション

REBORN: Reinforcement-Learned Boundary Segmentation with Iterative Training for Unsupervised ASR ( http://arxiv.org/abs/2402.03988v2 )

ライセンス: Link先を確認
Liang-Hsuan Tseng, En-Pei Hu, Cheng-Han Chiang, Yuan Tseng, Hung-yi Lee, Lin-shan Lee, Shao-Hua Sun, (参考訳) 教師なし自動音声認識(ASR)は、ペア音声テキストデータの監督なしに、音声信号とその対応するテキスト書き起こしのマッピングを学習することを目的としている。 音声信号中の単語/音素は、可変長と未知境界を持つ音声信号のセグメントで表現され、このセグメント構造は、特にペア化されたデータなしで、音声とテキストのマッピングを困難なものにする。 本稿では,Reinforcement-Learned boundary Segmentation with Iterative Training for Unsupervised ASRを提案する。 ReBORNは、(1)音声信号におけるセグメント構造の境界を予測するセグメント化モデルを訓練し、(2)セグメント化モデルによってセグメント化された音声特徴を入力とする音素予測モデルを訓練し、音素転写を予測する。 セグメンテーションモデルを訓練するための教師付きデータが入手できないため、強化学習を用いてセグメンテーションモデルを訓練し、低いパープレキシティで音素列予測をもたらすセグメンテーションを選択する。 我々は、広範囲にわたる実験を行い、同じ条件下で、REBORNは、LibriSpeech、TIMIT、および5つの非英語言語において、以前の教師なしASRモデルよりも優れていたことを発見した。 我々は、REBORNが学習した境界が教師なしのASR性能を改善する理由を包括的に分析する。

Unsupervised automatic speech recognition (ASR) aims to learn the mapping between the speech signal and its corresponding textual transcription without the supervision of paired speech-text data. A word/phoneme in the speech signal is represented by a segment of speech signal with variable length and unknown boundary, and this segmental structure makes learning the mapping between speech and text challenging, especially without paired data. In this paper, we propose REBORN,Reinforcement-Learned Boundary Segmentation with Iterative Training for Unsupervised ASR. REBORN alternates between (1) training a segmentation model that predicts the boundaries of the segmental structures in speech signals and (2) training the phoneme prediction model, whose input is the speech feature segmented by the segmentation model, to predict a phoneme transcription. Since supervised data for training the segmentation model is not available, we use reinforcement learning to train the segmentation model to favor segmentations that yield phoneme sequence predictions with a lower perplexity. We conduct extensive experiments and find that under the same setting, REBORN outperforms all prior unsupervised ASR models on LibriSpeech, TIMIT, and five non-English languages in Multilingual LibriSpeech. We comprehensively analyze why the boundaries learned by REBORN improve the unsupervised ASR performance.
翻訳日:2024-05-30 03:28:21 公開日:2024-05-28
# InfLLM: 効率的な文脈記憶を持つLLMのための学習不要な長期外挿法

InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory ( http://arxiv.org/abs/2402.04617v2 )

ライセンス: Link先を確認
Chaojun Xiao, Pengle Zhang, Xu Han, Guangxuan Xiao, Yankai Lin, Zhengyan Zhang, Zhiyuan Liu, Maosong Sun, (参考訳) 大規模言語モデル(LLM)は、長いストリーミング入力を持つ現実世界のアプリケーション(例えば、LLM駆動エージェント)の基盤として登場した。 しかし、制限された最大長のシーケンスで事前訓練された既存のLLMでは、ドメイン外および乱れの問題により、長いシーケンスを処理できない。 一般的なソリューションは、長いシーケンスで連続的な事前トレーニングを伴い、高価な計算オーバーヘッドと制御不能なモデル機能の変化をもたらす。 本稿では,極長列を微調整せずに理解するためのLLMの本質的な能力を明らかにする。 そこで本研究では,トレーニング不要なメモリベースのInfLLMを提案する。 特に、InfLLMは、遠隔コンテキストを追加のメモリ単位に格納し、注意計算のためにトークン関連ユニットを検索する効率的なメカニズムを用いる。 これにより、InfLLMはLLMがコンテキストウィンドウに制限された長いシーケンスを効率的に処理し、長距離依存関係を適切にキャプチャできる。 トレーニングなしでは、InfLLMは数千のトークンからなるシーケンスで事前トレーニングされたLLMを、長いシーケンスでこれらのLLMを継続的にトレーニングする競合ベースラインで同等のパフォーマンスを達成することができる。 シーケンス長が$1,024$Kにスケールしても、InfLLMは依然として、長距離依存関係を効果的にキャプチャする。 我々のコードは \url{https://github.com/thunlp/InfLLM} にある。

Large language models (LLMs) have emerged as a cornerstone in real-world applications with lengthy streaming inputs (e.g., LLM-driven agents). However, existing LLMs, pre-trained on sequences with a restricted maximum length, cannot process longer sequences due to the out-of-domain and distraction issues. Common solutions often involve continual pre-training on longer sequences, which will introduce expensive computational overhead and uncontrollable change in model capabilities. In this paper, we unveil the intrinsic capacity of LLMs for understanding extremely long sequences without any fine-tuning. To this end, we introduce a training-free memory-based method, InfLLM. Specifically, InfLLM stores distant contexts into additional memory units and employs an efficient mechanism to lookup token-relevant units for attention computation. Thereby, InfLLM allows LLMs to efficiently process long sequences with a limited context window and well capture long-distance dependencies. Without any training, InfLLM enables LLMs that are pre-trained on sequences consisting of a few thousand tokens to achieve comparable performance with competitive baselines that continually train these LLMs on long sequences. Even when the sequence length is scaled to $1,024$K, InfLLM still effectively captures long-distance dependencies. Our code can be found in \url{https://github.com/thunlp/InfLLM}.
翻訳日:2024-05-30 03:28:21 公開日:2024-05-28
# 潜時計画変換器:潜時変数推論としての計画

Latent Plan Transformer: Planning as Latent Variable Inference ( http://arxiv.org/abs/2402.04647v2 )

ライセンス: Link先を確認
Deqian Kong, Dehong Xu, Minglu Zhao, Bo Pang, Jianwen Xie, Andrew Lizarraga, Yuhao Huang, Sirui Xie, Ying Nian Wu, (参考訳) 長期的なリターンを目指すタスクにおいては、計画が不可欠である。 オフライン強化学習から得られたデータセットを用いた計画のための生成モデルについて検討する。 具体的には、段階的な報酬がない場合の時間的一貫性を重要な技術的課題として挙げる。 本稿では,Transformerベースのトラジェクトリジェネレータと最終リターンを接続するために,遅延空間を利用する新しいモデルであるLatent Plan Transformer(LPT)を紹介する。 LPTはトラジェクティブ-リターンペアの最大推定値で学習することができる。 学習において、潜在変数の後方サンプリングは、有限コンテキストにもかかわらず、自然にサブトラジェクトリを統合して一貫した抽象化を形成する。 テスト時には、遅延変数はポリシー実行前の期待した戻り値から推論され、計画のアイデアを推論として実現します。 Gym-Mujoco, Franka Kitchen, Maze2D, Connect Four など,複数のベンチマークで競合性能を達成し, 最適軌道からの精度向上を実証した。 微妙なクレジット割り当て、軌道縫合、環境問題への適応の能力を示す。 これらの結果は、潜伏変数推論がステップワイズ報酬プロンプトの強力な代替となることを証明している。

In tasks aiming for long-term returns, planning becomes essential. We study generative modeling for planning with datasets repurposed from offline reinforcement learning. Specifically, we identify temporal consistency in the absence of step-wise rewards as one key technical challenge. We introduce the Latent Plan Transformer (LPT), a novel model that leverages a latent space to connect a Transformer-based trajectory generator and the final return. LPT can be learned with maximum likelihood estimation on trajectory-return pairs. In learning, posterior sampling of the latent variable naturally integrates sub-trajectories to form a consistent abstraction despite the finite context. At test time, the latent variable is inferred from an expected return before policy execution, realizing the idea of planning as inference. Our experiments demonstrate that LPT can discover improved decisions from suboptimal trajectories, achieving competitive performance across several benchmarks, including Gym-Mujoco, Franka Kitchen, Maze2D, and Connect Four. It exhibits capabilities in nuanced credit assignments, trajectory stitching, and adaptation to environmental contingencies. These results validate that latent variable inference can be a strong alternative to step-wise reward prompting.
翻訳日:2024-05-30 03:28:21 公開日:2024-05-28
# Pseudo-labellingは、雑音のある部分的なラベル学習のためのラベル平滑化に遭遇する

Pseudo-labelling meets Label Smoothing for Noisy Partial Label Learning ( http://arxiv.org/abs/2402.04835v2 )

ライセンス: Link先を確認
Darshana Saravanan, Naresh Manwani, Vineet Gandhi, (参考訳) 部分ラベル学習(Partial label learning、PLL)は、各トレーニングインスタンスが、真のラベルである候補ラベル(partial label)のセットとペアリングされる弱い教師付き学習パラダイムである。 ノイズPLL(NPLL)はこの制約を緩和し、一部の部分ラベルが真のラベルを含まないようにし、問題の実用性を高める。 本研究はNPLLを中心とし,近傍の重み付けアルゴリズムを用いて雑音のある部分ラベルを利用して,まず画像に擬似ラベルを割り当てる最小限のフレームワークを提案する。 これらの擬似ラベルとイメージペアは、ラベルスムーズなディープニューラルネットワーク分類器のトレーニングに使用される。 分類器の特徴と予測はその後、擬似ラベルの精度を洗練・向上するために使用される。 7つのデータセットについて徹底的な実験を行い,9つのNPLL法とPLL法との比較を行った。 先行研究から得られたすべての研究結果から, 詳細な分類や極端な騒音シナリオにおいて, かなりの利得を得ることができた。 さらに、現実的なクラウドソースデータセットにおいて、我々のフレームワークの有望な一般化能力を示す。

Partial label learning (PLL) is a weakly-supervised learning paradigm where each training instance is paired with a set of candidate labels (partial label), one of which is the true label. Noisy PLL (NPLL) relaxes this constraint by allowing some partial labels to not contain the true label, enhancing the practicality of the problem. Our work centres on NPLL and presents a minimalistic framework that initially assigns pseudo-labels to images by exploiting the noisy partial labels through a weighted nearest neighbour algorithm. These pseudo-label and image pairs are then used to train a deep neural network classifier with label smoothing. The classifier's features and predictions are subsequently employed to refine and enhance the accuracy of pseudo-labels. We perform thorough experiments on seven datasets and compare against nine NPLL and PLL methods. We achieve state-of-the-art results in all studied settings from the prior literature, obtaining substantial gains in fine-grained classification and extreme noise scenarios. Further, we show the promising generalisation capability of our framework in realistic crowd-sourced datasets.
翻訳日:2024-05-30 03:28:21 公開日:2024-05-28
# インストラクション・チューニングの限界について

A Closer Look at the Limitations of Instruction Tuning ( http://arxiv.org/abs/2402.05119v4 )

ライセンス: Link先を確認
Sreyan Ghosh, Chandra Kiran Reddy Evuru, Sonal Kumar, Ramaneswaran S, Deepali Aneja, Zeyu Jin, Ramani Duraiswami, Dinesh Manocha, (参考訳) 命令応答ペアを用いた大規模言語モデル(LLM)の訓練プロセスであるインストラクションチューニング(IT)が,ベースとなる事前学習されたLLMをオープンドメインの会話エージェントに変換する主要な方法として登場した。 ITは目覚ましい成功を収め、広く採用されているが、その限界と欠点は未解決のままである。 本稿では、厳密な実験と、LLMがITを通して行っている変化の詳細な分析を通して、ITの様々な限界を明らかにする。 特に,1)LLMにおける知識や技能の向上に失敗する。 LoRAファインチューニングは学習応答開始とスタイルトークンに限られており、フルパラメータのファインチューニングは知識の劣化につながる。 2)知識ソースから派生したITデータセットからの応答パターンのコピーは,応答品質の低下につながる。 (3)全パラメータの微調整は,ITデータセット内の概念的に類似したインスタンスからトークンを不正確な借用によって幻覚を増大させ,応答を生成する。 (4) IT 改善のための一般的な手法は,シンプルな LoRA 微調整モデルよりも性能改善につながるものではない。 この結果から,事前学習した知識のみから生成した応答は,オープンソースデータセット上でITから新たな知識を学習するモデルによって,一貫した応答性能が向上することが判明した。 この論文で明らかになった洞察と課題が、今後の研究を関連する方向に促すことを願っています。

Instruction Tuning (IT), the process of training large language models (LLMs) using instruction-response pairs, has emerged as the predominant method for transforming base pre-trained LLMs into open-domain conversational agents. While IT has achieved notable success and widespread adoption, its limitations and shortcomings remain underexplored. In this paper, through rigorous experiments and an in-depth analysis of the changes LLMs undergo through IT, we reveal various limitations of IT. In particular, we show that (1) IT fails to enhance knowledge or skills in LLMs. LoRA fine-tuning is limited to learning response initiation and style tokens, and full-parameter fine-tuning leads to knowledge degradation. (2) Copying response patterns from IT datasets derived from knowledgeable sources leads to a decline in response quality. (3) Full-parameter fine-tuning increases hallucination by inaccurately borrowing tokens from conceptually similar instances in the IT dataset for generating responses. (4) Popular methods to improve IT do not lead to performance improvements over a simple LoRA fine-tuned model. Our findings reveal that responses generated solely from pre-trained knowledge consistently outperform responses by models that learn any form of new knowledge from IT on open-source datasets. We hope the insights and challenges revealed in this paper inspire future work in related directions.
翻訳日:2024-05-30 03:28:21 公開日:2024-05-28
# 変圧器におけるインダクティブバイアスの理解に向けて:インフィニティの視点から

Towards Understanding Inductive Bias in Transformers: A View From Infinity ( http://arxiv.org/abs/2402.05173v2 )

ライセンス: Link先を確認
Itay Lavie, Guy Gur-Ari, Zohar Ringel, (参考訳) 無限に過度にパラメータ化されたガウス過程の極限における変圧器の帰納バイアスについて検討し、変圧器は列空間のより置換対称関数に偏りを持つ傾向があると主張している。 対称群の表現論は、データセットがトークン間の置換に対称であるときに定量的な解析的予測を与えることができることを示す。 本稿では,学習曲線とネットワーク出力の正確な予測を含む,簡易な変圧器ブロックを提案し,その限界でモデルを解く。 一般的な設定では、文脈長の関数として学習可能性のスケーリング法則の形で厳密な境界を導出できることが示される。 最後に、WikiTextデータセットは、実際に置換対称性の程度を持っていると論じる。

We study inductive bias in Transformers in the infinitely over-parameterized Gaussian process limit and argue transformers tend to be biased towards more permutation symmetric functions in sequence space. We show that the representation theory of the symmetric group can be used to give quantitative analytical predictions when the dataset is symmetric to permutations between tokens. We present a simplified transformer block and solve the model at the limit, including accurate predictions for the learning curves and network outputs. We show that in common setups, one can derive tight bounds in the form of a scaling law for the learnability as a function of the context length. Finally, we argue WikiText dataset, does indeed possess a degree of permutation symmetry.
翻訳日:2024-05-30 03:28:21 公開日:2024-05-28
# MusicMagus: 拡散モデルによるゼロショットテキスト音楽編集

MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models ( http://arxiv.org/abs/2402.06178v3 )

ライセンス: Link先を確認
Yixiao Zhang, Yukara Ikemiya, Gus Xia, Naoki Murata, Marco A. Martínez-Ramírez, Wei-Hsiang Liao, Yuki Mitsufuji, Simon Dixon, (参考訳) テキストから音楽への生成モデルの最近の進歩は、音楽の創造性に新たな道を開いた。 しかし、音楽生成は通常反復的な洗練が伴い、生成した音楽の編集方法が重要な課題である。 本稿では,このようなモデルが生成する楽曲の編集に新たなアプローチを導入し,ジャンルやムード,楽器などの特定の属性の修正を可能とし,他の側面をそのままに維持する。 そこで本手法では,テキスト編集を‘textit{latent space manipulate}’に変換するとともに,一貫性を強制するための制約を追加する。 既存の事前訓練されたテキストから音楽への拡散モデルとシームレスに統合する。 実験により, ゼロショットと特定の教師付きベースラインの双方に対して, スタイルおよび音色伝達評価において優れた性能を示した。 さらに,実際の音楽編集シナリオにおいて,本手法の実用性を示す。

Recent advances in text-to-music generation models have opened new avenues in musical creativity. However, music generation usually involves iterative refinements, and how to edit the generated music remains a significant challenge. This paper introduces a novel approach to the editing of music generated by such models, enabling the modification of specific attributes, such as genre, mood and instrument, while maintaining other aspects unchanged. Our method transforms text editing to \textit{latent space manipulation} while adding an extra constraint to enforce consistency. It seamlessly integrates with existing pretrained text-to-music diffusion models without requiring additional training. Experimental results demonstrate superior performance over both zero-shot and certain supervised baselines in style and timbre transfer evaluations. Additionally, we showcase the practical applicability of our approach in real-world music editing scenarios.
翻訳日:2024-05-30 03:28:21 公開日:2024-05-28
# フェデレーションドメイン一般化のためのハイパーネットワーク駆動モデル融合

Hypernetwork-Driven Model Fusion for Federated Domain Generalization ( http://arxiv.org/abs/2402.06974v3 )

ライセンス: Link先を確認
Marc Bartholet, Taehyeon Kim, Ami Beuret, Se-Young Yun, Joachim M. Buhmann, (参考訳) フェデレートラーニング(FL)は、不均一なデータのドメインシフト、パフォーマンスの低下で大きな課題に直面します。 伝統的なドメイン一般化は、ドメイン不変の特徴を学習することを目的としているが、モデル平均化の連合性はしばしば、局所的な学習の線形集約のためにこれを制限している。 これを解決するために、ハイパーネットワークベースのFederated Fusion (hFedF) と呼ばれる堅牢なフレームワークを提案する。 本手法では,ドメインの一般化を効果的に管理するために,クライアント固有の埋め込みと勾配アライメント手法を用いる。 ゼロショット設定と少数ショット設定の両方で評価され、hFedFはドメインシフトを処理する上で優れたパフォーマンスを示している。 PACS、Office-Home、VLCSデータセットの総合的な比較では、hFedFは信頼性の高い予測によって、ドメイン内およびドメイン外の最高精度を一貫して達成している。 本研究は、FDG(Federated Domain Generalization)の未調査分野に大きく貢献し、この分野におけるパフォーマンスの新たなベンチマークを設定した。

Federated Learning (FL) faces significant challenges with domain shifts in heterogeneous data, degrading performance. Traditional domain generalization aims to learn domain-invariant features, but the federated nature of model averaging often limits this due to its linear aggregation of local learning. To address this, we propose a robust framework, coined as hypernetwork-based Federated Fusion (hFedF), using hypernetworks for non-linear aggregation, facilitating generalization to unseen domains. Our method employs client-specific embeddings and gradient alignment techniques to manage domain generalization effectively. Evaluated in both zero-shot and few-shot settings, hFedF demonstrates superior performance in handling domain shifts. Comprehensive comparisons on PACS, Office-Home, and VLCS datasets show that hFedF consistently achieves the highest in-domain and out-of-domain accuracy with reliable predictions. Our study contributes significantly to the under-explored field of Federated Domain Generalization (FDG), setting a new benchmark for performance in this area.
翻訳日:2024-05-30 03:28:21 公開日:2024-05-28
# Weisfeiler-Leman氏:もっと表現力が重要になるとき

Weisfeiler-Leman at the margin: When more expressivity matters ( http://arxiv.org/abs/2402.07568v2 )

ライセンス: Link先を確認
Billy J. Franks, Christopher Morris, Ameya Velingker, Floris Geerts, (参考訳) Weisfeiler-Lemanアルゴリズム(1$-WL)はグラフ同型問題に対するよく研究されたヒューリスティックである。 近年,このアルゴリズムは,メッセージパスグラフニューラルネットワーク(MPNN)の表現力を理解し,グラフカーネルとして有効である。 その成功にもかかわらず、1ドルWLは非同型グラフを区別する問題に直面し、より表現力のあるMPNNとカーネルアーキテクチャの開発に繋がる。 しかし,表現性向上と一般化性能向上の関係はいまだ不明である。 ここでは、アーキテクチャの表現性は、グラフ同型を通して見るときの一般化性能に関する限られた洞察を与えることを示す。 さらに,アーキテクチャの表現性向上と一般化性能の向上を両立させるため,サブグラフ情報を用いた1ドルWLとMPNNの強化に焦点をあて,古典的マージン理論を用いて検討を行った。 さらに, 勾配流がMPNNの重み付けを最大限界解へ押し上げることを示す。 さらに,表現力のある1ドルWLベースのカーネルとMPNNアーキテクチャと,証明可能な一般化特性を導入したMPNNアーキテクチャを導入する。 我々の実証研究は、我々の理論的な発見の妥当性を確認している。

The Weisfeiler-Leman algorithm ($1$-WL) is a well-studied heuristic for the graph isomorphism problem. Recently, the algorithm has played a prominent role in understanding the expressive power of message-passing graph neural networks (MPNNs) and being effective as a graph kernel. Despite its success, $1$-WL faces challenges in distinguishing non-isomorphic graphs, leading to the development of more expressive MPNN and kernel architectures. However, the relationship between enhanced expressivity and improved generalization performance remains unclear. Here, we show that an architecture's expressivity offers limited insights into its generalization performance when viewed through graph isomorphism. Moreover, we focus on augmenting $1$-WL and MPNNs with subgraph information and employ classical margin theory to investigate the conditions under which an architecture's increased expressivity aligns with improved generalization performance. In addition, we show that gradient flow pushes the MPNN's weights toward the maximum margin solution. Further, we introduce variations of expressive $1$-WL-based kernel and MPNN architectures with provable generalization properties. Our empirical study confirms the validity of our theoretical findings.
翻訳日:2024-05-30 03:28:21 公開日:2024-05-28
# TELLER: 説明可能な、一般化可能な、制御可能なフェイクニュース検出のための信頼できるフレームワーク

TELLER: A Trustworthy Framework for Explainable, Generalizable and Controllable Fake News Detection ( http://arxiv.org/abs/2402.07776v2 )

ライセンス: Link先を確認
Hui Liu, Wenya Wang, Haoru Li, Haoliang Li, (参考訳) 偽ニュースの拡散は深刻な社会問題として現れ、産業や学界から大きな関心を集めている。 既存のディープラーニングに基づく手法では、偽ニュースの正確な検出が進んでいるが、その信頼性は、透明でない推論プロセス、一般化能力の低下、大型言語モデル(LLM)との統合の固有のリスクによって損なわれる可能性がある。 この課題に対処するために、モデルの説明可能性、一般化可能性、制御性を優先する信頼に値する偽ニュース検出のための新しいフレームワークである {\methodname} を提案する。 これは、認知と意思決定システムを統合するデュアルシステムフレームワークを通じて実現され、上記の原則に準拠している。 認知システムは人間の専門知識を活用して論理述語を生成する。 一方、決定システムは、これらの原子を集約する一般化可能な論理則を導出し、様々な領域にわたる入力ニュースの真偽を識別し、意思決定プロセスにおける透明性を高める。 最後に、4つのデータセットに対する総合的な評価結果を示し、提案フレームワークの有効性と信頼性を示す。 我々の実装は \url{https://github.com/less-and-less-bugs/Trust_TELLER} で利用可能です。

The proliferation of fake news has emerged as a severe societal problem, raising significant interest from industry and academia. While existing deep-learning based methods have made progress in detecting fake news accurately, their reliability may be compromised caused by the non-transparent reasoning processes, poor generalization abilities and inherent risks of integration with large language models (LLMs). To address this challenge, we propose {\methodname}, a novel framework for trustworthy fake news detection that prioritizes explainability, generalizability and controllability of models. This is achieved via a dual-system framework that integrates cognition and decision systems, adhering to the principles above. The cognition system harnesses human expertise to generate logical predicates, which guide LLMs in generating human-readable logic atoms. Meanwhile, the decision system deduces generalizable logic rules to aggregate these atoms, enabling the identification of the truthfulness of the input news across diverse domains and enhancing transparency in the decision-making process. Finally, we present comprehensive evaluation results on four datasets, demonstrating the feasibility and trustworthiness of our proposed framework. Our implementation is available at \url{https://github.com/less-and-less-bugs/Trust_TELLER}.
翻訳日:2024-05-30 03:28:21 公開日:2024-05-28
# 平均場 min-max 問題に対するミラーDescent-Ascent

Mirror Descent-Ascent for mean-field min-max problems ( http://arxiv.org/abs/2402.08106v2 )

ライセンス: Link先を確認
Razvan-Andrei Lascu, Mateusz B. Majka, Łukasz Szpruch, (参考訳) 本研究では,測度空間上のmin-max問題を同時および逐次的に解くために,ミラー降下指数アルゴリズムの2つの変種について検討する。 我々は、平坦微分による測度空間上で定義される適切なブレグマン発散に対して、凸凸凸とペイオフ関数の相対滑らかさの仮定の下で研究する。 ニカイド・オ・イソダ誤差で測定された混合ナッシュ平衡への収束速度は、連立スキームと逐次スキームに対してそれぞれ$\mathcal{O}\left(N^{-1/2}\right)$と$\mathcal{O}\left(N^{-2/3}\right)$である。

We study two variants of the mirror descent-ascent algorithm for solving min-max problems on the space of measures: simultaneous and sequential. We work under assumptions of convexity-concavity and relative smoothness of the payoff function with respect to a suitable Bregman divergence, defined on the space of measures via flat derivatives. We show that the convergence rates to mixed Nash equilibria, measured in the Nikaid\`o-Isoda error, are of order $\mathcal{O}\left(N^{-1/2}\right)$ and $\mathcal{O}\left(N^{-2/3}\right)$ for the simultaneous and sequential schemes, respectively, which is in line with the state-of-the-art results for related finite-dimensional algorithms.
翻訳日:2024-05-30 01:28:38 公開日:2024-05-28
# The COLOSSEUM: ロボットマニピュレーションの一般化評価ベンチマーク

THE COLOSSEUM: A Benchmark for Evaluating Generalization for Robotic Manipulation ( http://arxiv.org/abs/2402.08191v2 )

ライセンス: Link先を確認
Wilbert Pumacay, Ishika Singh, Jiafei Duan, Ranjay Krishna, Jesse Thomason, Dieter Fox, (参考訳) 大規模で現実的なロボット応用を実現するためには,ロボットのポリシーが環境条件の変化にどの程度適応しているかを評価する必要がある。 残念なことに、ほとんどの研究は、トレーニング環境と近いか、あるいは同一の環境におけるロボットのパフォーマンスを評価している。 本稿では,環境摂動の14軸にわたるモデルの系統的評価を可能にする,20種類の操作タスクを備えた新しいシミュレーションベンチマークであるThe COLOSSEUMを提案する。 これらの摂動には、色、テクスチャ、オブジェクト、テーブルトップ、背景の大きさの変化が含まれます。 The COLOSSEUMを用いて、5つの最先端操作モデルを比較し、その成功率がこれらの摂動因子で30~50%低下することを明らかにする。 複数の摂動が一斉に適用されると、成功率は$\geq$75%低下する。 対象物や対象物の色,照明条件の変化が,モデル性能を最も低下させる摂動であることを確認した。 実験結果の生態学的妥当性を検証するため,シミュレーションの結果は実世界の同様の摂動と相関している(\bar{R}^2 = 0.614$)。 我々は、他者がCOLOSSEUMを使用するためのソースコードを公開し、現実世界の摂動を再現するために使用されるオブジェクトを3Dプリントするコードをリリースする。 最終的には、COLOSSEUMが、操作の一般化を体系的に改善するモデリング決定を識別するためのベンチマークとして機能することを願っている。 詳細はhttps://robot-colosseum.github.io/を参照。

To realize effective large-scale, real-world robotic applications, we must evaluate how well our robot policies adapt to changes in environmental conditions. Unfortunately, a majority of studies evaluate robot performance in environments closely resembling or even identical to the training setup. We present THE COLOSSEUM, a novel simulation benchmark, with 20 diverse manipulation tasks, that enables systematical evaluation of models across 14 axes of environmental perturbations. These perturbations include changes in color, texture, and size of objects, table-tops, and backgrounds; we also vary lighting, distractors, physical properties perturbations and camera pose. Using THE COLOSSEUM, we compare 5 state-of-the-art manipulation models to reveal that their success rate degrades between 30-50% across these perturbation factors. When multiple perturbations are applied in unison, the success rate degrades $\geq$75%. We identify that changing the number of distractor objects, target object color, or lighting conditions are the perturbations that reduce model performance the most. To verify the ecological validity of our results, we show that our results in simulation are correlated ($\bar{R}^2 = 0.614$) to similar perturbations in real-world experiments. We open source code for others to use THE COLOSSEUM, and also release code to 3D print the objects used to replicate the real-world perturbations. Ultimately, we hope that THE COLOSSEUM will serve as a benchmark to identify modeling decisions that systematically improve generalization for manipulation. See https://robot-colosseum.github.io/ for more details.
翻訳日:2024-05-30 01:28:38 公開日:2024-05-28
# BBox-Adapter: ブラックボックス大言語モデルの軽量適応

BBox-Adapter: Lightweight Adapting for Black-Box Large Language Models ( http://arxiv.org/abs/2402.08219v2 )

ライセンス: Link先を確認
Haotian Sun, Yuchen Zhuang, Wei Wei, Chao Zhang, Bo Dai, (参考訳) GPT-4やGeminiのような最先端の大規模言語モデル(LLM)を特定のタスクに適用することは困難である。 パラメータの不透明さ、埋め込み、出力確率などにより、既存の微調整適応法は適用できない。 したがって、これらのブラックボックス LLM の適用は、API サービスを通じてのみ可能であり、透明性、プライバシ、コストに関する懸念を提起する。 これらの課題に対処するために、ブラックボックスLLM用の新しい軽量アダプタであるBBox-Adapterを紹介する。 BBox-Adapterは、ターゲットデータを正、ソースデータを負として扱うことにより、ターゲットとソースのドメインデータを区別する。 ランキングベースのノイズコントラスト推定(NCE)損失を使用して、ソースドメインのデータをペナルティ化しながら、ターゲットドメインデータの可能性を促進する。 さらに、グラウンドトゥルース、人間、AIフィードバックからリアルタイムのポジティブデータをサンプリングするオンライン適応機構と、以前の適応からのネガティブデータを組み込んだオンライン適応機構も備えている。 大規模な実験では、BBox-Adapterの有効性とコスト効率が示されている。 様々なタスクとドメインでモデル性能を最大6.77%改善し、トレーニングコストと推論コストをそれぞれ31.30倍と1.84倍に削減する。

Adapting state-of-the-art Large Language Models (LLMs) like GPT-4 and Gemini for specific tasks is challenging. Due to the opacity in their parameters, embeddings, and even output probabilities, existing fine-tuning adaptation methods are inapplicable. Consequently, adapting these black-box LLMs is only possible through their API services, raising concerns about transparency, privacy, and cost. To address these challenges, we introduce BBox-Adapter, a novel lightweight adapter for black-box LLMs. BBox-Adapter distinguishes target and source domain data by treating target data as positive and source data as negative. It employs a ranking-based Noise Contrastive Estimation (NCE) loss to promote the likelihood of target domain data while penalizing that of the source domain. Furthermore, it features an online adaptation mechanism, which incorporates real-time positive data sampling from ground-truth, human, or AI feedback, coupled with negative data from previous adaptations. Extensive experiments demonstrate BBox-Adapter's effectiveness and cost efficiency. It improves model performance by up to 6.77% across diverse tasks and domains, while reducing training and inference costs by 31.30x and 1.84x, respectively.
翻訳日:2024-05-30 01:28:38 公開日:2024-05-28
# Subgraphormer: グラフプロダクトによるサブグラフGNNとグラフトランスフォーマーの統合

Subgraphormer: Unifying Subgraph GNNs and Graph Transformers via Graph Products ( http://arxiv.org/abs/2402.08450v2 )

ライセンス: Link先を確認
Guy Bar-Shalom, Beatrice Bevilacqua, Haggai Maron, (参考訳) Graph Neural Networks(GNN)の領域では、最近、Subgraph GNNとGraph Transformersという2つのエキサイティングな研究方向が現れた。 本稿では,拡張表現力,メッセージパッシング機構,およびサブグラフGNNのアグリゲーションスキームを,グラフトランスフォーマーにおける最も重要なコンポーネントである注目および位置エンコーディングと組み合わせた,Subgraphormerと呼ばれる2つのアプローチを統合するアーキテクチャを提案する。 提案手法は,サブグラフGNNと製品グラフとの間の興味深い新たな接続をベースとして,グラフの製品上で動作しているメッセージパッシングニューラルネットワーク(MPNN)として,サブグラフGNNを定式化できることを示唆する。 まず、製品グラフの接続性に基づいた注意機構を考案します。 次に,提案手法は,積グラフの位置エンコーディングであるサブグラフGNNに対して,新しい,効率的な位置エンコーディング方式を提案する。 実験の結果,幅広いデータセット上で,Subgraph GNNとGraph Transformerの双方に対して,大幅な性能向上が得られた。

In the realm of Graph Neural Networks (GNNs), two exciting research directions have recently emerged: Subgraph GNNs and Graph Transformers. In this paper, we propose an architecture that integrates both approaches, dubbed Subgraphormer, which combines the enhanced expressive power, message-passing mechanisms, and aggregation schemes from Subgraph GNNs with attention and positional encodings, arguably the most important components in Graph Transformers. Our method is based on an intriguing new connection we reveal between Subgraph GNNs and product graphs, suggesting that Subgraph GNNs can be formulated as Message Passing Neural Networks (MPNNs) operating on a product of the graph with itself. We use this formulation to design our architecture: first, we devise an attention mechanism based on the connectivity of the product graph. Following this, we propose a novel and efficient positional encoding scheme for Subgraph GNNs, which we derive as a positional encoding for the product graph. Our experimental results demonstrate significant performance improvements over both Subgraph GNNs and Graph Transformers on a wide range of datasets.
翻訳日:2024-05-30 01:28:38 公開日:2024-05-28
# 大規模言語モデルによる推論における前提順序事項

Premise Order Matters in Reasoning with Large Language Models ( http://arxiv.org/abs/2402.08939v3 )

ライセンス: Link先を確認
Xinyun Chen, Ryan A. Chi, Xuezhi Wang, Denny Zhou, (参考訳) 大規模言語モデル(LLM)は、様々な領域において顕著な推論性能を達成している。 しかし、推論タスクの領域では、私たちは不安定さを発見します: LLMは、そのような順序付けが基礎となるタスクを変えないという事実にもかかわらず、前提の順序付けに対して驚くほど脆弱です。 特に、前提順序が中間推論ステップで要求されるコンテキストと整合すると、LCMが最高の性能を達成することを観察する。 例えば、帰納的推論タスクでは、(ランダムな順序付けとは対照的に)プロンプトにおける基底真理証明と同じ順序で前提を提示すると、モデルの精度が劇的に向上する。 まず, 前提順序が多種多様 LLM に与える影響について検討し, 前提順序が変われば30%以上の性能低下が生じることを示した。 さらに,GSM8KをベースとしたベンチマークR-GSMをリリースし,数学的な問題解決の順序付け効果を検証し,元のGSM8Kベンチマークと比較して精度の大幅な低下を観測した。

Large language models (LLMs) have accomplished remarkable reasoning performance in various domains. However, in the domain of reasoning tasks, we discover a frailty: LLMs are surprisingly brittle to the ordering of the premises, despite the fact that such ordering does not alter the underlying task. In particular, we observe that LLMs achieve the best performance when the premise order aligns with the context required in intermediate reasoning steps. For example, in deductive reasoning tasks, presenting the premises in the same order as the ground truth proof in the prompt (as opposed to random ordering) drastically increases the model's accuracy. We first examine the effect of premise ordering on deductive reasoning on a variety of LLMs, and our evaluation shows that permuting the premise order can cause a performance drop of over 30%. In addition, we release the benchmark R-GSM, based on GSM8K, to examine the ordering effect for mathematical problem-solving, and we again observe a significant drop in accuracy, relative to the original GSM8K benchmark.
翻訳日:2024-05-30 01:28:38 公開日:2024-05-28
# カスタムLDMに対するバックドアアタックの指導

Instruction Backdoor Attacks Against Customized LLMs ( http://arxiv.org/abs/2402.09179v3 )

ライセンス: Link先を確認
Rui Zhang, Hongwei Li, Rui Wen, Wenbo Jiang, Yuan Zhang, Michael Backes, Yun Shen, Yang Zhang, (参考訳) カスタマイズされたLarge Language Models (LLM) に対する需要が増加し、GPTのようなソリューションが開発されるようになった。 これらのソリューションは、コーディングせずに自然言語のプロンプトを介してLLMをカスタマイズするのに役立つ。 しかし、サードパーティのカスタムバージョンのLDMの信頼性は依然として重要な懸念事項である。 本稿では、信頼できないカスタマイズ LLM (e , GPTs) と統合されたアプリケーションに対する最初の命令バックドア攻撃を提案する。 具体的には、これらの攻撃は、バックドア命令でプロンプトを設計し、事前に定義されたトリガを含む場合、アタッカーの望ましい結果を出力することで、バックドアをLLMのカスタムバージョンに埋め込む。 私たちの攻撃には、単語レベル、構文レベル、意味レベルという3つのレベルの攻撃が含まれています。 我々は、我々の攻撃は微調整やバックエンドのLCMの変更を必要とせず、GPT開発ガイドラインに厳格に従うことを強調する。 我々は6つの著名なLCMと5つのベンチマークテキスト分類データセットについて広範な実験を行った。 その結果,我々の命令バックドア攻撃は,実用性を損なうことなく,所望の攻撃性能を達成できることが示唆された。 さらに,2つの防衛戦略を提案し,その効果を実証する。 GPTなどのLCMカスタマイズの脆弱性と潜在的なリスクについて検討した。

The increasing demand for customized Large Language Models (LLMs) has led to the development of solutions like GPTs. These solutions facilitate tailored LLM creation via natural language prompts without coding. However, the trustworthiness of third-party custom versions of LLMs remains an essential concern. In this paper, we propose the first instruction backdoor attacks against applications integrated with untrusted customized LLMs (e.g., GPTs). Specifically, these attacks embed the backdoor into the custom version of LLMs by designing prompts with backdoor instructions, outputting the attacker's desired result when inputs contain the pre-defined triggers. Our attack includes 3 levels of attacks: word-level, syntax-level, and semantic-level, which adopt different types of triggers with progressive stealthiness. We stress that our attacks do not require fine-tuning or any modification to the backend LLMs, adhering strictly to GPTs development guidelines. We conduct extensive experiments on 6 prominent LLMs and 5 benchmark text classification datasets. The results show that our instruction backdoor attacks achieve the desired attack performance without compromising utility. Additionally, we propose two defense strategies and demonstrate their effectiveness in reducing such attacks. Our findings highlight the vulnerability and the potential risks of LLM customization such as GPTs.
翻訳日:2024-05-30 01:28:38 公開日:2024-05-28
# STEER:大規模言語モデルの経済連帯性を評価する

STEER: Assessing the Economic Rationality of Large Language Models ( http://arxiv.org/abs/2402.09552v2 )

ライセンス: Link先を確認
Narun Raman, Taylor Lundy, Samuel Amouyal, Yoav Levine, Kevin Leyton-Brown, Moshe Tennenholtz, (参考訳) LLMを意思決定の「エージェント」として使うことへの関心が高まっている。 どのモデルを使うべきか、どのように促すべきか、イントロスペクションやチェーン・オブ・シークレットの推論など、多くの自由度が含まれています。 より広義には、LLMエージェントが信頼できるかどうかを判断するためには、そのようなエージェントの経済的合理性を評価するための方法論が必要である。 本稿では,提案する。 まず、合理的な意思決定に関する経済文献を調査し、エージェントが提示すべき「要素」の集合を分類し、それら間の依存関係を分類する。 次に、これらの要素に対してLLMの性能を定量的に評価し、ユーザが提供するルーリックと組み合わせて「STEERレポートカード」を生成するベンチマーク分布を提案する。 最後に,14種類のLLMを用いた大規模実験結果について述べる。

There is increasing interest in using LLMs as decision-making "agents." Doing so includes many degrees of freedom: which model should be used; how should it be prompted; should it be asked to introspect, conduct chain-of-thought reasoning, etc? Settling these questions -- and more broadly, determining whether an LLM agent is reliable enough to be trusted -- requires a methodology for assessing such an agent's economic rationality. In this paper, we provide one. We begin by surveying the economic literature on rational decision making, taxonomizing a large set of fine-grained "elements" that an agent should exhibit, along with dependencies between them. We then propose a benchmark distribution that quantitatively scores an LLMs performance on these elements and, combined with a user-provided rubric, produces a "STEER report card." Finally, we describe the results of a large-scale empirical experiment with 14 different LLMs, characterizing the both current state of the art and the impact of different model sizes on models' ability to exhibit rational behavior.
翻訳日:2024-05-30 01:28:38 公開日:2024-05-28
# 調整器を用いたフィルタ間のエビデンスの組み合わせ

Combining Evidence Across Filtrations Using Adjusters ( http://arxiv.org/abs/2402.09698v2 )

ライセンス: Link先を確認
Yo Joong Choe, Aaditya Ramdas, (参考訳) 任意の時間価のシーケンシャル推論では、任意の許容手順は、任意の停止時間で合成ヌル仮説に対して蓄積された証拠を定量化するテストマリンタレの複合一般化である電子過程に基づいていなければならないことが知られている。 本稿では,異なる情報集合(フィルタ)を用いて構築した電子プロセスを同一のnullに対して組み合わせる手法について検討する。 同じ濾過で構築された電子プロセスは、(例えば、平均化によって)懸命に結合することができるが、より微細な濾過では有効でないため、異なる濾過で構築された電子プロセスは不可能である。 この問題は、交換可能性テスト、独立性テスト、および予測と遅延を比較するためのテストで発生する。 まず、調整器と呼ばれる関数のクラスが、粗いフィルターからより微細なフィルターにEプロセスを持ち上げることができることを証明します。 次に、アコーダの利用が必要な感覚を定式化するアコーダの特性定理を導入する。 主な意味は2つある。 まず、粗い濾過で強力な電子プロセスがあれば、元の濾過ですぐに強力な電子プロセスが得られる。 第二に、電子プロセスを構築するために濾過を粗くすると、元の濾過の時間的妥当性を回復する漸近的対数コストが生じる。

In anytime-valid sequential inference, it is known that any admissible procedure must be based on e-processes, which are composite generalizations of test martingales that quantify the accumulated evidence against a composite null hypothesis at any arbitrary stopping time. This paper studies methods for combining e-processes constructed using different information sets (filtrations) for the same null. Although e-processes constructed in the same filtration can be combined effortlessly (e.g., by averaging), e-processes constructed in different filtrations cannot, because their validity in a coarser filtration does not translate to validity in a finer filtration. This issue arises in exchangeability tests, independence tests, and tests for comparing forecasts with lags. We first establish that a class of functions called adjusters allows us to lift e-processes from a coarser filtration into any finer filtration. We then introduce a characterization theorem for adjusters, formalizing a sense in which using adjusters is necessary. There are two major implications. First, if we have a powerful e-process in a coarsened filtration, then we readily have a powerful e-process in the original filtration. Second, when we coarsen the filtration to construct an e-process, there is an asymptotically logarithmic cost of recovering anytime-validity in the original filtration.
翻訳日:2024-05-30 01:28:38 公開日:2024-05-28
# 反復的後方サンプリングによる確率的位置推定

Stochastic Localization via Iterative Posterior Sampling ( http://arxiv.org/abs/2402.10758v2 )

ライセンス: Link先を確認
Louis Grenioux, Maxence Noble, Marylou Gabrié, Alain Oliviero Durmus, (参考訳) スコアに基づく学習を基盤として,確率的ローカライゼーション技術への新たな関心が高まっている。 これらのモデルでは、観測過程と呼ばれる確率過程を通じて、データ分布からサンプルをノイズにし、このダイナミクスに関連するデノイザーを徐々に学習する。 特定の応用とは別に、非正規化対象密度からのサンプリング問題に対する確率的局所化の利用は、広く研究されていない。 この仕事は、このギャップを埋めるのに役立ちます。 一般的な確率的局所化フレームワークを考察し、フレキシブルな偏極スケジュールに関連する観察過程の明示的なクラスを導入する。 我々は、この力学の近似的なサンプルを得るための完全な方法論である$\textit{Stochastic Localization via Iterative Posterior Sampling}$ (SLIPS)を提供する。 我々のスキームはマルコフ連鎖モンテカルロによるデノイザーの推定に基づいており、詳細な実践的ガイドラインが付属している。 本稿では,多モード分布のベンチマークにおけるSLIPSの利点と適用性について述べる。例えば,多次元のガウス混合,ベイジアンロジスティック回帰,統計力学による高次元場システムなどである。

Building upon score-based learning, new interest in stochastic localization techniques has recently emerged. In these models, one seeks to noise a sample from the data distribution through a stochastic process, called observation process, and progressively learns a denoiser associated to this dynamics. Apart from specific applications, the use of stochastic localization for the problem of sampling from an unnormalized target density has not been explored extensively. This work contributes to fill this gap. We consider a general stochastic localization framework and introduce an explicit class of observation processes, associated with flexible denoising schedules. We provide a complete methodology, $\textit{Stochastic Localization via Iterative Posterior Sampling}$ (SLIPS), to obtain approximate samples of this dynamics, and as a by-product, samples from the target distribution. Our scheme is based on a Markov chain Monte Carlo estimation of the denoiser and comes with detailed practical guidelines. We illustrate the benefits and applicability of SLIPS on several benchmarks of multi-modal distributions, including Gaussian mixtures in increasing dimensions, Bayesian logistic regression and a high-dimensional field system from statistical-mechanics.
翻訳日:2024-05-30 01:28:38 公開日:2024-05-28
# EcoRank: 大規模言語モデルを用いた予算制約付きテキストの再分類

EcoRank: Budget-Constrained Text Re-ranking Using Large Language Models ( http://arxiv.org/abs/2402.10866v2 )

ライセンス: Link先を確認
Muhammad Shihab Rashid, Jannat Ara Meem, Yue Dong, Vagelis Hristidis, (参考訳) 大規模言語モデル(LLM)は、テキストの再ランク付けにおいて最先端のパフォーマンスを達成した。 このプロセスはプロンプト内のクエリと候補パスを含み、ポイントワイド、リストワイド、ペアワイドのプロンプト戦略を利用する。 LLMによるこれらのランキング戦略の制限はコストであり、入力トークンと出力トークンの数に基づいて、APIの課金によってプロセスが高価になる可能性がある。 提案手法は, 迅速な選択, LLM API, 予算分割の膨大な検索空間をナビゲートすることによって, 予算が与えられた性能を最大化する方法について検討する。 LLM APIの集合を用いてテキストの再ランク付けを行うための予算制約付き手法の組を提案する。 私たちの最も効率的な方法は、EcoRankと呼ばれ、プロンプト戦略とLCM API間の予算配分に関する決定を共同で最適化する2層パイプラインです。 EcoRankは,4つの人気QAおよびパスリグレードデータセットの実験結果から,他の予算に配慮した教師なしベースラインよりも優れた性能を示した。

Large Language Models (LLMs) have achieved state-of-the-art performance in text re-ranking. This process includes queries and candidate passages in the prompts, utilizing pointwise, listwise, and pairwise prompting strategies. A limitation of these ranking strategies with LLMs is their cost: the process can become expensive due to API charges, which are based on the number of input and output tokens. We study how to maximize the re-ranking performance given a budget, by navigating the vast search spaces of prompt choices, LLM APIs, and budget splits. We propose a suite of budget-constrained methods to perform text re-ranking using a set of LLM APIs. Our most efficient method, called EcoRank, is a two-layered pipeline that jointly optimizes decisions regarding budget allocation across prompt strategies and LLM APIs. Our experimental results on four popular QA and passage reranking datasets show that EcoRank outperforms other budget-aware supervised and unsupervised baselines.
翻訳日:2024-05-30 01:28:38 公開日:2024-05-28
# メモリ効率の良いLLMファインチューニングのためのゼロ階最適化の再検討:ベンチマーク

Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark ( http://arxiv.org/abs/2402.11592v3 )

ライセンス: Link先を確認
Yihua Zhang, Pingzhi Li, Junyuan Hong, Jiaxiang Li, Yimeng Zhang, Wenqing Zheng, Pin-Yu Chen, Jason D. Lee, Wotao Yin, Mingyi Hong, Zhangyang Wang, Sijia Liu, Tianlong Chen, (参考訳) 自然言語処理(NLP)の進化途上において、SGDやAdamのような一階最適化(FO)を備えた微調整済みの大規模言語モデル(LLM)が標準となっている。 しかし, LLMのサイズが大きくなるにつれて, FO勾配計算のバックプロパゲーション(BP)によるメモリオーバーヘッドが大きくなることが大きな課題となっている。 特にメモリ効率が最重要であるオンデバイストレーニングのようなアプリケーションでは、この問題に対処することが重要です。 本稿では, BPフリーなゼロオーダー最適化(ZO)へのシフトを, MeZOが最初に導入した概念に基づいて, LLM微調整時のメモリコスト削減のソリューションとして提案する。 従来のZO-SGD法とは異なり、我々の研究はより広範なZO最適化手法に拡張され、5つのLLMファミリー(Roberta, OPT, LLaMA, Vicuna, Mistral)、3つのタスク複雑度、5つの微調整スキームにまたがる総合的なベンチマーク研究が実施されている。 本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。 さらに,ブロックワイド降下,ハイブリッドトレーニング,勾配間隔など,ZO最適化の新たな拡張も導入する。 我々の研究は、よりメモリ効率の良いLCM微調整を実現するための有望な方向性を提供する。 すべての実験を再現するためのコードはhttps://github.com/ZO-Bench/ZO-LLM にある。

In the evolving landscape of natural language processing (NLP), fine-tuning pre-trained Large Language Models (LLMs) with first-order (FO) optimizers like SGD and Adam has become standard. Yet, as LLMs grow {in size}, the substantial memory overhead from back-propagation (BP) for FO gradient computation presents a significant challenge. Addressing this issue is crucial, especially for applications like on-device training where memory efficiency is paramount. This paper proposes a shift towards BP-free, zeroth-order (ZO) optimization as a solution for reducing memory costs during LLM fine-tuning, building on the initial concept introduced by MeZO. Unlike traditional ZO-SGD methods, our work expands the exploration to a wider array of ZO optimization techniques, through a comprehensive, first-of-its-kind benchmarking study across five LLM families (Roberta, OPT, LLaMA, Vicuna, Mistral), three task complexities, and five fine-tuning schemes. Our study unveils previously overlooked optimization principles, highlighting the importance of task alignment, the role of the forward gradient method, and the balance between algorithm complexity and fine-tuning performance. We further introduce novel enhancements to ZO optimization, including block-wise descent, hybrid training, and gradient sparsity. Our study offers a promising direction for achieving further memory-efficient LLM fine-tuning. Codes to reproduce all our experiments are at https://github.com/ZO-Bench/ZO-LLM .
翻訳日:2024-05-30 01:28:38 公開日:2024-05-28
# 変圧器を用いたインコンテキスト学習:リップシッツネスに適応したソフトマックスアテンション

In-Context Learning with Transformers: Softmax Attention Adapts to Function Lipschitzness ( http://arxiv.org/abs/2402.11639v2 )

ライセンス: Link先を確認
Liam Collins, Advait Parulekar, Aryan Mokhtari, Sujay Sanghavi, Sanjay Shakkottai, (参考訳) In-context Learning(ICL)は、学習者が暗黙的にいくつかのデータを通して推論中に新しいコンテキストを提示し、そのコンテキストで予測を行う機械学習フレームワークである。 そのため、学習者は追加の訓練を受けずに文脈に適応しなければならない。 我々は、各コンテキストが回帰タスクをエンコードするICL設定におけるソフトマックスアテンションの役割について検討する。 注意ユニットは、事前学習タスクのランドスケープに適応した最寄りの予測器を実装するために使用するウィンドウを学習する。 具体的には,プレトレーニング作業におけるリプシッツ性低下とラベルノイズの増加により,このウィンドウが拡大することを示す。 また、低ランク線形問題において、注目部は推論の前に適切な部分空間に投影することを学ぶ。 さらに, この適応性はソフトマックスの活性化に大きく依存しており, 先行理論解析においてしばしば研究される線形活性化によって再現できないことを示す。

A striking property of transformers is their ability to perform in-context learning (ICL), a machine learning framework in which the learner is presented with a novel context during inference implicitly through some data, and tasked with making a prediction in that context. As such, that learner must adapt to the context without additional training. We explore the role of softmax attention in an ICL setting where each context encodes a regression task. We show that an attention unit learns a window that it uses to implement a nearest-neighbors predictor adapted to the landscape of the pretraining tasks. Specifically, we show that this window widens with decreasing Lipschitzness and increasing label noise in the pretraining tasks. We also show that on low-rank, linear problems, the attention unit learns to project onto the appropriate subspace before inference. Further, we show that this adaptivity relies crucially on the softmax activation and thus cannot be replicated by the linear activation often studied in prior theoretical analyses.
翻訳日:2024-05-30 01:18:48 公開日:2024-05-28
# 生成的半教師付きグラフ異常検出

Generative Semi-supervised Graph Anomaly Detection ( http://arxiv.org/abs/2402.11887v4 )

ライセンス: Link先を確認
Hezhe Qiao, Qingsong Wen, Xiaoli Li, Ee-Peng Lim, Guansong Pang, (参考訳) この研究は、グラフ内のノードの一部が正規であることが知られている実用的な半教師付きグラフ異常検出(GAD)シナリオを考察し、完全にラベル付けされていないグラフを用いた広範囲に探索された教師なし設定とは対照的である。 我々は,通常のノードへのアクセスがごく少数のノードであっても,半教師付き設定に適応した場合に,既存の教師なしGAD手法の検出性能を向上させることを明らかにした。 しかし、これらの通常のノードの利用は限られている。 本稿では,通常のノードをよりよく活用するために,半教師付きシナリオのための新しいGAD手法(GGAD)を提案する。 鍵となるアイデアは、識別可能な1クラス分類器を訓練する際に有効な負のノードサンプルを提供するために、擬似異常ノード("outlier node"と呼ばれる)を生成することである。 ここでの最大の課題は、実際の異常ノードに関する基礎的な真理情報の欠如である。 この課題に対処するため、GGADは、異常ノード(非対称な局所親和性と自中心的親和性)に関する2つの重要な事前情報を活用するように設計されており、グラフ構造と特徴表現の両方で異常ノードを同化する信頼性の高い外れ値ノードを生成する。 6つの実世界のGADデータセットに関する総合的な実験を行い、半教師付きGADのベンチマークを確立し、GAGDが訓練正常ノード数の異なる最先端の非教師付きおよび半教師付きGADメソッドを大幅に上回っていることを示す。 コードはhttps://github.com/mala-lab/GGAD.comで公開される。

This work considers a practical semi-supervised graph anomaly detection (GAD) scenario, where part of the nodes in a graph are known to be normal, contrasting to the extensively explored unsupervised setting with a fully unlabeled graph. We reveal that having access to the normal nodes, even just a small percentage of normal nodes, helps enhance the detection performance of existing unsupervised GAD methods when they are adapted to the semi-supervised setting. However, their utilization of these normal nodes is limited. In this paper, we propose a novel Generative GAD approach (namely GGAD) for the semi-supervised scenario to better exploit the normal nodes. The key idea is to generate pseudo anomaly nodes, referred to as 'outlier nodes', for providing effective negative node samples in training a discriminative one-class classifier. The main challenge here lies in the lack of ground truth information about real anomaly nodes. To address this challenge, GGAD is designed to leverage two important priors about the anomaly nodes -- asymmetric local affinity and egocentric closeness -- to generate reliable outlier nodes that assimilate anomaly nodes in both graph structure and feature representations. Comprehensive experiments on six real-world GAD datasets are performed to establish a benchmark for semi-supervised GAD and show that GGAD substantially outperforms state-of-the-art unsupervised and semi-supervised GAD methods with varying numbers of training normal nodes. Code will be made available at https://github.com/mala-lab/GGAD.
翻訳日:2024-05-30 01:18:48 公開日:2024-05-28
# DiLightNet:拡散画像生成のための微粒化照明制御

DiLightNet: Fine-grained Lighting Control for Diffusion-based Image Generation ( http://arxiv.org/abs/2402.11929v2 )

ライセンス: Link先を確認
Chong Zeng, Yue Dong, Pieter Peers, Youkang Kong, Hongzhi Wu, Xin Tong, (参考訳) 本稿では,テキスト駆動拡散画像生成におけるきめ細かな照明制御を実現するための新しい手法を提案する。 既存の拡散モデルは、任意の照明条件下で画像を生成する能力を持っているが、追加のガイダンスなしでは、これらのモデルは画像の内容と照明を相関する傾向にある。 さらに、テキストプロンプトには詳細な照明設定を記述するために必要な表現力がない。 画像生成時の照明のきめ細かい制御を可能とし、かつ、照度ヒントの形で詳細な照明情報、すなわち、ターゲット照明下で均質な正準材を用いたシーン形状の可視化によりテキストプロンプトを増強するコンテンツクリエータを提供する。 しかし、放射光のヒントを生成するのに必要なシーン形状は分かっていない。 我々のキーとなる観察は、拡散過程のみを導く必要があるため、正確な放射率ヒントは不要であり、拡散モデルを正しい方向に向ける必要があることである。 この観測に基づいて,画像生成時の照明を制御する3段階の手法を提案する。 最初の段階では、標準の事前学習拡散モデルを利用して、制御不能な照明下で暫定的な画像を生成する。 次に、第2段階では、仮画像から推定される前景オブジェクトの粗い形状に計算された放射率ヒントを用いて、ターゲット照明を改良された拡散モデルであるDiLightNetに渡すことにより、生成画像中の前景オブジェクトを再合成し、精製する。 テクスチャの詳細を維持するために、ダイライトネットに渡す前に、レイディアンスヒントを仮合成画像のニューラルエンコーディングに乗じる。 最後に、第3段階において、背景を前景の照明と整合させるように再合成する。 我々は、様々なテキストプロンプトと照明条件に基づいて、照明制御拡散モデルを実証し、検証する。

This paper presents a novel method for exerting fine-grained lighting control during text-driven diffusion-based image generation. While existing diffusion models already have the ability to generate images under any lighting condition, without additional guidance these models tend to correlate image content and lighting. Moreover, text prompts lack the necessary expressional power to describe detailed lighting setups. To provide the content creator with fine-grained control over the lighting during image generation, we augment the text-prompt with detailed lighting information in the form of radiance hints, i.e., visualizations of the scene geometry with a homogeneous canonical material under the target lighting. However, the scene geometry needed to produce the radiance hints is unknown. Our key observation is that we only need to guide the diffusion process, hence exact radiance hints are not necessary; we only need to point the diffusion model in the right direction. Based on this observation, we introduce a three stage method for controlling the lighting during image generation. In the first stage, we leverage a standard pretrained diffusion model to generate a provisional image under uncontrolled lighting. Next, in the second stage, we resynthesize and refine the foreground object in the generated image by passing the target lighting to a refined diffusion model, named DiLightNet, using radiance hints computed on a coarse shape of the foreground object inferred from the provisional image. To retain the texture details, we multiply the radiance hints with a neural encoding of the provisional synthesized image before passing it to DiLightNet. Finally, in the third stage, we resynthesize the background to be consistent with the lighting on the foreground object. We demonstrate and validate our lighting controlled diffusion model on a variety of text prompts and lighting conditions.
翻訳日:2024-05-30 01:18:48 公開日:2024-05-28
# GumbelSoft: GumbelMax-trickによる多言語モデル透かし

GumbelSoft: Diversified Language Model Watermarking via the GumbelMax-trick ( http://arxiv.org/abs/2402.12948v3 )

ライセンス: Link先を確認
Jiayi Fu, Xuandong Zhao, Ruihan Yang, Yuansen Zhang, Jiangjie Chen, Yanghua Xiao, (参考訳) 大型言語モデル(LLM)は、人間のようなテキストを生成するだけでなく、フェイクニュースや学術的不正の誤用も懸念している。 デコードベースの透かし、特にGumbelMax-trickベースの透かし(GM透かし)は、その顕著な検出性のために、機械生成テキストを保護するためのスタンドアウトソリューションである。 しかし、GMの透かしは世代多様性において大きな課題に直面し、常に同じプロンプトに対して同じ出力を出力し、世代多様性とユーザエクスペリエンスに悪影響を及ぼす。 この制限を克服するために,新しいタイプのGM透かし,Logits-Addition透かし,およびその3つの変種を提案する。 このうち、GumbelSoftの透かし(Logits-Addition 透かしのソフトマックス版)は、高い多様性設定において優れた性能を示し、AUROCのスコアは2種類の変種のうち、0.1から0.3で、他の復号ベースの透かし法を0.1で上回っている。

Large language models (LLMs) excellently generate human-like text, but also raise concerns about misuse in fake news and academic dishonesty. Decoding-based watermark, particularly the GumbelMax-trick-based watermark(GM watermark), is a standout solution for safeguarding machine-generated texts due to its notable detectability. However, GM watermark encounters a major challenge with generation diversity, always yielding identical outputs for the same prompt, negatively impacting generation diversity and user experience. To overcome this limitation, we propose a new type of GM watermark, the Logits-Addition watermark, and its three variants, specifically designed to enhance diversity. Among these, the GumbelSoft watermark (a softmax variant of the Logits-Addition watermark) demonstrates superior performance in high diversity settings, with its AUROC score outperforming those of the two alternative variants by 0.1 to 0.3 and surpassing other decoding-based watermarking methods by a minimum of 0.1.
翻訳日:2024-05-30 01:18:48 公開日:2024-05-28
# ニューラルネットワークパラメータ拡散

Neural Network Parameter Diffusion ( http://arxiv.org/abs/2402.13144v2 )

ライセンス: Link先を確認
Kai Wang, Zhaopan Xu, Yukun Zhou, Zelin Zang, Trevor Darrell, Zhuang Liu, Yang You, (参考訳) 拡散モデルは画像生成やビデオ生成において顕著な成功を収めた。 本研究は,拡散モデルが高パフォーマンスニューラルネットワークパラメータのtextit{generate \textit{generate high-performing Neural Network parameters} にも適用可能であることを示す。 我々のアプローチは単純で、オートエンコーダと標準潜在拡散モデルを利用する。 オートエンコーダは、トレーニングされたネットワークパラメータのサブセットの潜在表現を抽出する。 拡散モデルは、これらの潜在パラメータ表現をランダムノイズから合成するように訓練される。 その後、オートエンコーダのデコーダに渡される新しい表現を生成し、その出力はネットワークパラメータの新しいサブセットとして使用できる。 さまざまなアーキテクチャやデータセットにわたって、私たちの拡散プロセスは、トレーニングされたネットワーク上での同等または改善されたパフォーマンスのモデルを、最小限のコストで一貫して生成します。 特に、生成されたモデルがトレーニングされたネットワークを記憶していないことを経験的に見出した。 この結果は拡散モデルの多元性利用に関するさらなる探索を奨励するものである。

Diffusion models have achieved remarkable success in image and video generation. In this work, we demonstrate that diffusion models can also \textit{generate high-performing neural network parameters}. Our approach is simple, utilizing an autoencoder and a standard latent diffusion model. The autoencoder extracts latent representations of a subset of the trained network parameters. A diffusion model is then trained to synthesize these latent parameter representations from random noise. It then generates new representations that are passed through the autoencoder's decoder, whose outputs are ready to use as new subsets of network parameters. Across various architectures and datasets, our diffusion process consistently generates models of comparable or improved performance over trained networks, with minimal additional cost. Notably, we empirically find that the generated models are not memorizing the trained networks. Our results encourage more exploration on the versatile use of diffusion models.
翻訳日:2024-05-30 01:18:48 公開日:2024-05-28
# 量子ワッサーシュタイン発散の計量的性質について

On the metric property of quantum Wasserstein divergences ( http://arxiv.org/abs/2402.13150v2 )

ライセンス: Link先を確認
Gergely Bunth, József Pitrik, Tamás Titkos, Dániel Virosztek, (参考訳) 量子ワッサーシュタインの発散は、チャネルによって定義される量子ワッサーシュタイン距離の修正版であり、デ・パルマとトレビサンによって量子状態空間上の真の計量であると推測される。 分離可能ヒルベルト空間と任意の二次コスト作用素によって記述される全ての量子系に対して、量子ワッサーシュタインの三角形の不等式は、特定の状態が純粋であり、全ての状態が有限エネルギーであるという仮定の下で証明する。 また、三角形の不等式が一般に任意の状態の選択のために成り立つことを示唆する強い数値的な証拠も提示する。

Quantum Wasserstein divergences are modified versions of quantum Wasserstein distances defined by channels, and they are conjectured to be genuine metrics on quantum state spaces by De Palma and Trevisan. We prove triangle inequality for quantum Wasserstein divergences for every quantum system described by a separable Hilbert space and any quadratic cost operator under the assumption that a particular state involved is pure, and all the states have finite energy. We also provide strong numerical evidence suggesting that the triangle inequality holds in general, for an arbitrary choice of states.
翻訳日:2024-05-30 01:18:48 公開日:2024-05-28
# 言語モデルファインチューニングにおける自己蒸留ブリッジの分布ギャップ

Self-Distillation Bridges Distribution Gap in Language Model Fine-Tuning ( http://arxiv.org/abs/2402.13669v2 )

ライセンス: Link先を確認
Zhaorui Yang, Tianyu Pang, Haozhe Feng, Han Wang, Wei Chen, Minfeng Zhu, Qian Liu, (参考訳) 大規模言語モデル(LLM)の急増は自然言語処理に革命をもたらしたが、特定のタスクに対する微調整は、パフォーマンスのバランスと一般的な命令追従能力の維持という課題に直面することが多い。 本稿では,タスクデータセットとLCM間の分散ギャップが主な原因であると仮定する。 そこで本研究では, モデル自体が生成した蒸留データセットを用いて, 分散ギャップを埋める手法として, 自己蒸留細管(SDFT)を導入する。 各種ベンチマークにおけるLlama-2-chatモデルによる実験結果から,SDFTはバニラ微調整に比べて下流タスクにおいて同等あるいは優れた性能を達成しつつ,破滅的な忘れを効果的に軽減することが示された。 さらに、SDFTは、LCMの利便性と安全性を維持する可能性を実証している。 私たちのコードはhttps://github.com/sail-sg/sdft.comから入手可能です。

The surge in Large Language Models (LLMs) has revolutionized natural language processing, but fine-tuning them for specific tasks often encounters challenges in balancing performance and preserving general instruction-following abilities. In this paper, we posit that the distribution gap between task datasets and the LLMs serves as the primary underlying cause. To address the problem, we introduce Self-Distillation Fine-Tuning (SDFT), a novel approach that bridges the distribution gap by guiding fine-tuning with a distilled dataset generated by the model itself to match its original distribution. Experimental results on the Llama-2-chat model across various benchmarks demonstrate that SDFT effectively mitigates catastrophic forgetting while achieving comparable or superior performance on downstream tasks compared to the vanilla fine-tuning. Moreover, SDFT demonstrates the potential to maintain the helpfulness and safety alignment of LLMs. Our code is available at https://github.com/sail-sg/sdft.
翻訳日:2024-05-30 01:18:48 公開日:2024-05-28
# CriticBench: 批判と正しい推論のためのLLMのベンチマーク

CriticBench: Benchmarking LLMs for Critique-Correct Reasoning ( http://arxiv.org/abs/2402.14809v3 )

ライセンス: Link先を確認
Zicheng Lin, Zhibin Gou, Tian Liang, Ruilin Luo, Haowei Liu, Yujiu Yang, (参考訳) 大規模言語モデル(LLM)がそれらの推論を批判し、洗練する能力は、評価、フィードバックのプロビジョニング、自己改善において非常に重要である。 本稿では,LCMの様々なタスクにおける推論を批判・修正する能力を評価するための総合的なベンチマークであるCriticBenchを紹介する。 CriticBenchは数学、常識、記号、コーディング、アルゴリズムの5つの推論領域を含んでいる。 15のデータセットをコンパイルし、3つのLLMファミリーからのレスポンスを組み込む。 CriticBenchを用いて、GQC推論(GQC推論)の生成、批評、修正における17個のLLMの性能を評価し、評価する。 以上の結果から,(1)GQC能力の線形関係,(2)改善能力の顕著な向上,(2)論理指向タスクの補正性の向上,(3)モデルサイズの増加に伴って低下するGQC知識の不整合,(4)より弱いモデルの方がより弱いモデルに好適なモデル間クオリティクアリングのダイナミクス,などが明らかになった。 LLMの微妙な批判的正しい推論に対するこれらの洞察が、LCM批判と自己改善のさらなる研究を促進することを願っている。

The ability of Large Language Models (LLMs) to critique and refine their reasoning is crucial for their application in evaluation, feedback provision, and self-improvement. This paper introduces CriticBench, a comprehensive benchmark designed to assess LLMs' abilities to critique and rectify their reasoning across a variety of tasks. CriticBench encompasses five reasoning domains: mathematical, commonsense, symbolic, coding, and algorithmic. It compiles 15 datasets and incorporates responses from three LLM families. Utilizing CriticBench, we evaluate and dissect the performance of 17 LLMs in generation, critique, and correction reasoning, i.e., GQC reasoning. Our findings reveal: (1) a linear relationship in GQC capabilities, with critique-focused training markedly enhancing performance; (2) a task-dependent variation in correction effectiveness, with logic-oriented tasks being more amenable to correction; (3) GQC knowledge inconsistencies that decrease as model size increases; and (4) an intriguing inter-model critiquing dynamic, where stronger models are better at critiquing weaker ones, while weaker models can surprisingly surpass stronger ones in their self-critique. We hope these insights into the nuanced critique-correct reasoning of LLMs will foster further research in LLM critique and self-improvement.
翻訳日:2024-05-30 01:18:48 公開日:2024-05-28
# DistALANER: オープンソースソフトウェアエコシステムにおけるアクティブラーニングの拡張されたエンティティ認識

DistALANER: Distantly Supervised Active Learning Augmented Named Entity Recognition in the Open Source Software Ecosystem ( http://arxiv.org/abs/2402.16159v4 )

ライセンス: Link先を確認
Somnath Banerjee, Avik Dutta, Aaditya Agrawal, Rima Hazra, Animesh Mukherjee, (参考訳) AI革命が成立すると、オープンソースのソフトウェアシステム、医療システム、銀行システム、交通システムなど、さまざまな分野のプロフェッショナルをサポートする自動化システムを構築する傾向がますます顕著になっている。 このようなシステムのサポートツールの自動化において重要な要件は、名前付きエンティティの早期識別であり、特殊機能開発の基礎となっている。 しかし、各ドメイン固有の性質、異なる専門用語や専門言語により、利用可能なデータのエキスパートアノテーションは高価で困難になる。 これらの課題を踏まえて,オープンソースのソフトウェアシステムに特化して,エンティティ認識(NER)技術を提案する。 提案手法は,2段階の遠隔教師付きアノテーションプロセスを用いて,注釈付きソフトウェアデータの不足に対処することを目的としている。 このプロセスは、言語ヒューリスティックス、ユニークなルックアップテーブル、外部知識源、アクティブな学習アプローチを戦略的に活用する。 これらの強力な技術を活用することで、モデルの性能を高めるだけでなく、コストや専門家アノテータの不足に伴う制限を効果的に緩和する。 我々のモデルは最先端のLLMよりもかなり優れています。 また,関係抽出の下流課題におけるNERの有効性を示す。

With the AI revolution in place, the trend for building automated systems to support professionals in different domains such as the open source software systems, healthcare systems, banking systems, transportation systems and many others have become increasingly prominent. A crucial requirement in the automation of support tools for such systems is the early identification of named entities, which serves as a foundation for developing specialized functionalities. However, due to the specific nature of each domain, different technical terminologies and specialized languages, expert annotation of available data becomes expensive and challenging. In light of these challenges, this paper proposes a novel named entity recognition (NER) technique specifically tailored for the open-source software systems. Our approach aims to address the scarcity of annotated software data by employing a comprehensive two-step distantly supervised annotation process. This process strategically leverages language heuristics, unique lookup tables, external knowledge sources, and an active learning approach. By harnessing these powerful techniques, we not only enhance model performance but also effectively mitigate the limitations associated with cost and the scarcity of expert annotators. It is noteworthy that our model significantly outperforms the state-of-the-art LLMs by a substantial margin. We also show the effectiveness of NER in the downstream task of relation extraction.
翻訳日:2024-05-30 01:18:48 公開日:2024-05-28
# 大規模言語モデルは認知言語処理をミラー化するか?

Do Large Language Models Mirror Cognitive Language Processing? ( http://arxiv.org/abs/2402.18023v2 )

ライセンス: Link先を確認
Yuqi Ren, Renren Jin, Tongxuan Zhang, Deyi Xiong, (参考訳) 大規模言語モデル(LLM)はテキスト理解と論理的推論において顕著な能力を示しており、LLMによって学習されたテキスト表現が言語処理能力を促進することを示唆している。 認知科学において、脳認知処理信号は典型的には人間の言語処理を研究するために使用される。 したがって、LLMからのテキスト埋め込みが脳認知処理信号とどの程度うまく一致し、トレーニング戦略がLLM脳のアライメントにどのように影響するかを問うことは自然である。 本稿では、Representational similarity Analysis (RSA) を用いて、23のメインストリームLLMとfMRI信号のアライメントを測定し、LLMが認知言語処理をいかに効果的にシミュレートするかを評価する。 本研究では,LLM脳アライメントに対する各種因子(例えば,事前学習データサイズ,モデルスケーリング,アライメントトレーニング,プロンプト)の影響を実験的に検討する。 実験結果から、事前学習データサイズとモデルスケーリングはLLM-脳類似性と正の相関を示し、アライメントトレーニングはLLM-脳類似性を大幅に改善することが示された。 明示的プロンプトはLLMの脳認知言語処理との整合性に寄与するが、非感覚的なノイズ的プロンプトはそのようなアライメントを弱める可能性がある。 さらに, LLM評価(例えばMMLU, Chatbot Arena)の性能は, LLM-Brain類似度と高い相関性を示した。

Large Language Models (LLMs) have demonstrated remarkable abilities in text comprehension and logical reasoning, indicating that the text representations learned by LLMs can facilitate their language processing capabilities. In cognitive science, brain cognitive processing signals are typically utilized to study human language processing. Therefore, it is natural to ask how well the text embeddings from LLMs align with the brain cognitive processing signals, and how training strategies affect the LLM-brain alignment? In this paper, we employ Representational Similarity Analysis (RSA) to measure the alignment between 23 mainstream LLMs and fMRI signals of the brain to evaluate how effectively LLMs simulate cognitive language processing. We empirically investigate the impact of various factors (e.g., pre-training data size, model scaling, alignment training, and prompts) on such LLM-brain alignment. Experimental results indicate that pre-training data size and model scaling are positively correlated with LLM-brain similarity, and alignment training can significantly improve LLM-brain similarity. Explicit prompts contribute to the consistency of LLMs with brain cognitive language processing, while nonsensical noisy prompts may attenuate such alignment. Additionally, the performance of a wide range of LLM evaluations (e.g., MMLU, Chatbot Arena) is highly correlated with the LLM-brain similarity.
翻訳日:2024-05-30 01:18:48 公開日:2024-05-28
# 1Dギブス状態の条件付き独立と効率的な学習への応用

Conditional Independence of 1D Gibbs States with Applications to Efficient Learning ( http://arxiv.org/abs/2402.18500v2 )

ライセンス: Link先を確認
Paul Gondolf, Samuel O. Scalet, Alberto Ruiz-de-Alarcon, Alvaro M. Alhambra, Angela Capel, (参考訳) 熱平衡におけるスピン鎖は, 個々の領域が近傍に強く相関する相関構造を持つことを示す。 我々はこれを、いわゆるBelavkin-Staszewski相対エントロピーによって定義される条件付き相互情報の代替概念で定量化する。 スピン鎖ハミルトニアンが変換不変であるという仮定の下で、これらの測度が任意の正の温度で超指数的に崩壊することを証明する。 これらの測度に付随するリカバリマップを用いて、小さな(サブ対数的な)大きさの辺りの点でテンソルネットワーク近似を逐次構築する。 主な応用として, 多項式サンプル複雑性を用いた局所的な測定から, 状態の古典的表現を効率的に学習できることが示されている。 また,ギブス状態全体の純度について近似分解条件を証明し,少数の局所測定値から小さな乗算誤差に効率的に推定できることを示唆した。 結果は厳密な局所から、指数関数的に低下する相互作用をしきい値温度以上まで延長する。 独立な関心の技術的ステップとして、条件付き予想の適用によるベラブキン・シュタゼフスキ相対エントロピーの崩壊への上限を示す。

We show that spin chains in thermal equilibrium have a correlation structure in which individual regions are strongly correlated at most with their near vicinity. We quantify this with alternative notions of the conditional mutual information defined through the so-called Belavkin-Staszewski relative entropy. We prove that these measures decay superexponentially at every positive temperature, under the assumption that the spin chain Hamiltonian is translation-invariant. Using a recovery map associated with these measures, we sequentially construct tensor network approximations in terms of marginals of small (sublogarithmic) size. As a main application, we show that classical representations of the states can be learned efficiently from local measurements with a polynomial sample complexity. We also prove an approximate factorization condition for the purity of the entire Gibbs state, which implies that it can be efficiently estimated to a small multiplicative error from a small number of local measurements. The results extend from strictly local to exponentially-decaying interactions above a threshold temperature, albeit only with exponential decay rates. As a technical step of independent interest, we show an upper bound to the decay of the Belavkin-Staszewski relative entropy upon the application of a conditional expectation.
翻訳日:2024-05-30 01:18:48 公開日:2024-05-28
# Med-Real2Sim:物理インフォームド自己監督学習を用いた非侵襲型医療デジタル双生児

Med-Real2Sim: Non-Invasive Medical Digital Twins using Physics-Informed Self-Supervised Learning ( http://arxiv.org/abs/2403.00177v2 )

ライセンス: Link先を確認
Keying Kuang, Frances Dean, Jack B. Jedlicki, David Ouyang, Anthony Philippakis, David Sontag, Ahmed M. Alaa, (参考訳) デジタルツイン(Digital twin)は、数学的モデリングを用いてその定義する特徴を特徴づけ、シミュレートする現実世界の物理現象の仮想レプリカである。 デジタル双生児を病気のプロセスのために構築することにより、仮想環境における仮想的な介入の下で、患者の健康状態や反現実的な結果を模倣するシリカ内シミュレーションを行うことができる。 これにより、侵襲的な処置や不確実な治療決定が不要になる。 本稿では,非侵襲的な患者健康データのみを用いて,デジタル双対モデルパラメータを同定する手法を提案する。 我々は,デジタル双対モデリングを複合逆問題としてアプローチし,その構造が自己教師付き学習(SSL)における事前学習や微調整に似ていることを観察する。 これを活用することで、生理学的プロセスの微分可能なシミュレータを学習するプリテキストタスクにおいて、まずニューラルネットワークを事前訓練する物理インフォームドSSLアルゴリズムを導入する。 その後、モデルは、事前訓練で学んだ物理方程式に拘束されながら、非侵襲的なモーダルから生理的計測を再構築するように訓練される。 非侵襲的心エコー法による心血行動態のデジタル双生児の同定に本法を適用し,非観血的疾患検出およびサイリコ内臨床試験における有用性を示した。

A digital twin is a virtual replica of a real-world physical phenomena that uses mathematical modeling to characterize and simulate its defining features. By constructing digital twins for disease processes, we can perform in-silico simulations that mimic patients' health conditions and counterfactual outcomes under hypothetical interventions in a virtual setting. This eliminates the need for invasive procedures or uncertain treatment decisions. In this paper, we propose a method to identify digital twin model parameters using only noninvasive patient health data. We approach the digital twin modeling as a composite inverse problem, and observe that its structure resembles pretraining and finetuning in self-supervised learning (SSL). Leveraging this, we introduce a physics-informed SSL algorithm that initially pretrains a neural network on the pretext task of learning a differentiable simulator of a physiological process. Subsequently, the model is trained to reconstruct physiological measurements from noninvasive modalities while being constrained by the physical equations learned in pretraining. We apply our method to identify digital twins of cardiac hemodynamics using noninvasive echocardiogram videos, and demonstrate its utility in unsupervised disease detection and in-silico clinical trials.
翻訳日:2024-05-30 01:18:48 公開日:2024-05-28
# ニュース見出しにおける目標感のLLM--記述-規範的ジレンマを探る

LLMs for Targeted Sentiment in News Headlines: Exploring the Descriptive-Prescriptive Dilemma ( http://arxiv.org/abs/2403.00418v2 )

ライセンス: Link先を確認
Jana Juroš, Laura Majer, Jan Šnajder, (参考訳) ニュースの見出しは、特定の方法でエンティティを意図的に描写することで感情を喚起し、見出しのターゲット感情分析(TSA)を価値はあるが難しいタスクにする。 主観性のため、TSAデータセットの作成には、主観性を促進するか制限する、記述的から規範的まで、様々なアノテーションのパラダイムが伴う。 LLMは広い言語的・世界的知識と文脈内学習能力のためにTSAに適しているが、その性能は素早い設計に依存している。 本稿では,複数の言語にまたがる記述的および規範的データセットを用いて,最新のLLMとニュース見出しのTSAのための微調整エンコーダモデルの精度を比較した。 記述型-記述型連続体を探索し、平易なゼロショットから精巧な少数ショットプロンプトまで、即時的な説明性によってパフォーマンスがどのように影響を受けるかを分析する。 最後に, LLMのキャリブレーション誤差による不確かさの定量化と, ラベル変動との比較を行った。 LLMは記述的データセット上で微調整エンコーダよりも優れており、キャリブレーションとF1スコアは規範性の向上とともに一般的に改善されているが、最適レベルは様々である。

News headlines often evoke sentiment by intentionally portraying entities in particular ways, making targeted sentiment analysis (TSA) of headlines a worthwhile but difficult task. Due to its subjectivity, creating TSA datasets can involve various annotation paradigms, from descriptive to prescriptive, either encouraging or limiting subjectivity. LLMs are a good fit for TSA due to their broad linguistic and world knowledge and in-context learning abilities, yet their performance depends on prompt design. In this paper, we compare the accuracy of state-of-the-art LLMs and fine-tuned encoder models for TSA of news headlines using descriptive and prescriptive datasets across several languages. Exploring the descriptive--prescriptive continuum, we analyze how performance is affected by prompt prescriptiveness, ranging from plain zero-shot to elaborate few-shot prompts. Finally, we evaluate the ability of LLMs to quantify uncertainty via calibration error and comparison to human label variation. We find that LLMs outperform fine-tuned encoders on descriptive datasets, while calibration and F1-score generally improve with increased prescriptiveness, yet the optimal level varies.
翻訳日:2024-05-30 01:09:03 公開日:2024-05-28
# Diff-Plugin:拡散に基づく低レベルタスクの再現

Diff-Plugin: Revitalizing Details for Diffusion-based Low-level Tasks ( http://arxiv.org/abs/2403.00644v4 )

ライセンス: Link先を確認
Yuhao Liu, Zhanghan Ke, Fang Liu, Nanxuan Zhao, Rynson W. H. Lau, (参考訳) 大規模データセットで訓練された拡散モデルは、画像合成において顕著な進歩を遂げた。 しかし拡散過程のランダム性のため、細部保存を必要とする多様な低レベルのタスクを扱うのにしばしば苦労する。 この制限を克服するために、Diff-Pluginフレームワークを提案する。 具体的には、まず、タスク固有の事前情報を提供し、画像コンテンツを保存するための拡散プロセスを導くために、デュアルブランチ設計の軽量なTask-Pluginモジュールを提案する。 次に、テキスト命令に基づいて異なるタスクを自動選択できるプラグインセレクタを提案し、複数の低レベルタスクを自然言語で示すことで画像を編集できる。 我々は8つの低レベル視覚タスクについて広範な実験を行った。 この結果は、特に実世界のシナリオにおいて、既存の手法よりもDiff-Pluginの方が優れていることを示す。 Diff-Pluginは安定していて、スケジューリング可能で、さまざまなデータセットサイズにわたる堅牢なトレーニングをサポートしています。

Diffusion models trained on large-scale datasets have achieved remarkable progress in image synthesis. However, due to the randomness in the diffusion process, they often struggle with handling diverse low-level tasks that require details preservation. To overcome this limitation, we present a new Diff-Plugin framework to enable a single pre-trained diffusion model to generate high-fidelity results across a variety of low-level tasks. Specifically, we first propose a lightweight Task-Plugin module with a dual branch design to provide task-specific priors, guiding the diffusion process in preserving image content. We then propose a Plugin-Selector that can automatically select different Task-Plugins based on the text instruction, allowing users to edit images by indicating multiple low-level tasks with natural language. We conduct extensive experiments on 8 low-level vision tasks. The results demonstrate the superiority of Diff-Plugin over existing methods, particularly in real-world scenarios. Our ablations further validate that Diff-Plugin is stable, schedulable, and supports robust training across different dataset sizes.
翻訳日:2024-05-30 01:09:03 公開日:2024-05-28
# ボヘミア量子力学における量子可観測物のダイナミクスとボルンの規則

Dynamics of quantum observables and Born's rule in Bohmian Quantum Mechanics ( http://arxiv.org/abs/2403.01836v2 )

ライセンス: Link先を確認
Athanasios C. Tzemos, George Contopoulos, (参考訳) 異方性2d量子調和振動子のボーム粒子のボルン分布における秩序的およびカオス的なボーム粒子軌道について検討する。 エネルギー,運動量,角運動量,位置の平均値は,標準量子力学とボーム力学の両方を用いて計算する。 特に,1つの結節点と複数の結節点を持つ2つの異なる波動関数を持つ波動関数に対するボルン分布の実現について検討した。 分析を通して、これらの平均値を決定する上での秩序的およびカオス的なボヘミア軌道の寄与の解明に焦点をあてる。

We investigate both ordered and chaotic Bohmian trajectories within the Born distribution of Bohmian particles of an anisotropic 2d quantum harmonic oscillator. We compute the average values of energy, momentum, angular momentum, and position using both Standard Quantum Mechanics and Bohmian Mechanics. In particular, we examine realizations of the Born distribution for a wavefunction with a single nodal point and two different wavefunctions with multiple nodal points: one with an almost equal number of ordered and chaotic trajectories, and another composed primarily of chaotic trajectories. Throughout our analysis, we focus on elucidating the contribution of ordered and chaotic Bohmian trajectories in determining these average values.
翻訳日:2024-05-30 01:09:03 公開日:2024-05-28
# テキストと画像のモデルのための暗黙のプロンプトを目指すポジション

Position: Towards Implicit Prompt For Text-To-Image Models ( http://arxiv.org/abs/2403.02118v4 )

ライセンス: Link先を確認
Yue Yang, Yuqi Lin, Hong Liu, Wenqi Shao, Runjian Chen, Hailong Shang, Yu Wang, Yu Qiao, Kaipeng Zhang, Ping Luo, (参考訳) 最近のテキスト・ツー・イメージ(T2I)モデルは大きな成功を収め、その性能と安全性を評価するために多くのベンチマークが提案されている。 しかし、明示的なプロンプトのみを考慮し、暗黙的なプロンプトを無視する(明示的に言及せずにターゲットに隠れる)。 これらのプロンプトは安全性の制約を排除し、これらのモデルの応用に潜在的な脅威をもたらす可能性がある。 本稿では,T2Iモデルの現状を暗黙のプロンプトに向けて強調する。 我々は、ImplicitBenchというベンチマークを示し、一般的なT2Iモデルを用いた暗黙的なプロンプトの性能と影響について調査する。 具体的には、一般シンボル、セレブプライバシ、Not-Safe-For-Work(NSFW)問題という3つの側面の2000以上の暗黙的なプロンプトを設計し、収集し、これらの暗黙的なプロンプトの下で6つのよく知られたT2Iモデルの能力を評価する。 実験結果から,(1)T2Iモデルが暗黙のプロンプトによって示される様々なターゲットシンボルを正確に生成できること,(2)暗黙のプロンプトがT2Iモデルのプライバシー漏洩の潜在的なリスクをもたらすことが示唆された。 (3) 評価されたほとんどのT2IモデルにおけるNSFWの制約は暗黙のプロンプトでバイパスすることができる。 我々は、T2Iコミュニティにおける暗黙のプロンプトの可能性とリスクに対する関心を高め、暗黙のプロンプトの能力と影響についてさらなる調査を行い、彼らのリスクを軽減しつつ、彼らの利益を生かしたバランスの取れたアプローチを提唱する。

Recent text-to-image (T2I) models have had great success, and many benchmarks have been proposed to evaluate their performance and safety. However, they only consider explicit prompts while neglecting implicit prompts (hint at a target without explicitly mentioning it). These prompts may get rid of safety constraints and pose potential threats to the applications of these models. This position paper highlights the current state of T2I models toward implicit prompts. We present a benchmark named ImplicitBench and conduct an investigation on the performance and impacts of implicit prompts with popular T2I models. Specifically, we design and collect more than 2,000 implicit prompts of three aspects: General Symbols, Celebrity Privacy, and Not-Safe-For-Work (NSFW) Issues, and evaluate six well-known T2I models' capabilities under these implicit prompts. Experiment results show that (1) T2I models are able to accurately create various target symbols indicated by implicit prompts; (2) Implicit prompts bring potential risks of privacy leakage for T2I models. (3) Constraints of NSFW in most of the evaluated T2I models can be bypassed with implicit prompts. We call for increased attention to the potential and risks of implicit prompts in the T2I community and further investigation into the capabilities and impacts of implicit prompts, advocating for a balanced approach that harnesses their benefits while mitigating their risks.
翻訳日:2024-05-30 01:09:03 公開日:2024-05-28
# 悲しい男性、悲しい女性:大きな言語モデル:感情属性における性的なステレオタイプを反映する

Angry Men, Sad Women: Large Language Models Reflect Gendered Stereotypes in Emotion Attribution ( http://arxiv.org/abs/2403.03121v3 )

ライセンス: Link先を確認
Flor Miriam Plaza-del-Arco, Amanda Cercas Curry, Alba Curry, Gavin Abercrombie, Dirk Hovy, (参考訳) 大規模言語モデル(LLM)は、特にジェンダーに関する社会的規範と偏見を反映している。 社会的バイアスやステレオタイプは様々なNLPアプリケーションで広く研究されているが、感情分析には驚くべきギャップがある。 しかし、感情とジェンダーは社会的言説と密接に関連している。 例えば、女性はより共感的と見なされるが、男性の怒りはより社会的に受け入れられる。 このギャップを埋めるために、私たちは5つの最先端のLCM(オープンソースおよびクローズドソース)において、性的な感情帰属に関する最初の包括的研究を提示する。 本研究は,感情がジェンダー化されているか,社会的ステレオタイプに基づくのかを考察する。 我々はモデルに「大切な人と真面目な議論をした時」のようなイベントに性的なペルソナを採用し、感情を属性付けるよう促す。 次に, モデルが生成した感情を, ジェンダー対とジェンダー対の関係で分析する。 すべてのモデルは、ジェンダーステレオタイプの影響を受けながら、一貫して性的な感情を示す。 これらの知見は、心理学やジェンダー研究の確立した研究と一致している。 私たちの研究は、言語、性別、感情の間の複雑な社会的相互作用に光を当てています。 LLMの感情ステレオタイプを再現することで、これらのモデルを用いてそのトピックを詳細に研究することができるが、同じLSMの感情応用における予測的利用に関する疑問が提起される。

Large language models (LLMs) reflect societal norms and biases, especially about gender. While societal biases and stereotypes have been extensively researched in various NLP applications, there is a surprising gap for emotion analysis. However, emotion and gender are closely linked in societal discourse. E.g., women are often thought of as more empathetic, while men's anger is more socially accepted. To fill this gap, we present the first comprehensive study of gendered emotion attribution in five state-of-the-art LLMs (open- and closed-source). We investigate whether emotions are gendered, and whether these variations are based on societal stereotypes. We prompt the models to adopt a gendered persona and attribute emotions to an event like 'When I had a serious argument with a dear person'. We then analyze the emotions generated by the models in relation to the gender-event pairs. We find that all models consistently exhibit gendered emotions, influenced by gender stereotypes. These findings are in line with established research in psychology and gender studies. Our study sheds light on the complex societal interplay between language, gender, and emotion. The reproduction of emotion stereotypes in LLMs allows us to use those models to study the topic in detail, but raises questions about the predictive use of those same LLMs for emotion applications.
翻訳日:2024-05-30 01:09:03 公開日:2024-05-28
# オペレータ学習の正規化グループ

Operator Learning Renormalization Group ( http://arxiv.org/abs/2403.03199v2 )

ライセンス: Link先を確認
Xiu-Zhe Luo, Di Luo, Roger G. Melko, (参考訳) 本稿では,演算子学習再正規化群 (OLRG) と呼ばれる量子多体シミュレーションのための一般的なフレームワークを提案する。 機械学習の観点に触発されて、OLRGはウィルソンの数値的再正規化群とホワイトの密度行列再正規化群を一般化し、演算子マップを介して同じ数のサイトを対象とするシステムを再現的に構築する。 OLRGは、状態アンサッツの代わりに演算子マップを学習することで、ターゲットプロパティの誤差を最小化するために損失関数を使用する。 この損失関数は、リアルタイム進化のための証明可能なバウンダリを提供するスケーリング一貫性条件によって設計されている。 古典的および量子シミュレーションのための演算子マップの2つのバージョンを実装した。 前者はOperator Matrix Mapと呼ばれ、従来のコンピュータ上のニューラルネットワークで実装できる。 後者は、ハミルトニアン表現マップと呼ばれ、量子コンピューティングハードウェアの能力を活用するためにデバイスパルスシーケンスを生成する。 量子イジングモデルハミルトニアンの時間依存量を計算するための両写像の性能について述べる。

In this paper, we present a general framework for quantum many-body simulations called the operator learning renormalization group (OLRG). Inspired by machine learning perspectives, OLRG is a generalization of Wilson's numerical renormalization group and White's density matrix renormalization group, which recursively builds a simulatable system to approximate a target system of the same number of sites via operator maps. OLRG uses a loss function to minimize the error of a target property directly by learning the operator map in lieu of a state ansatz. This loss function is designed by a scaling consistency condition that also provides a provable bound for real-time evolution. We implement two versions of the operator maps for classical and quantum simulations. The former, which we call the Operator Matrix Map, can be implemented via neural networks on classical computers. The latter, which we call the Hamiltonian Expression Map, generates device pulse sequences to leverage the capabilities of quantum computing hardware. We illustrate the performance of both maps for calculating time-dependent quantities in the quantum Ising model Hamiltonian.
翻訳日:2024-05-30 01:09:03 公開日:2024-05-28
# アイテムはプロンプトである:遠方制御によるVersatile Image Editing

An Item is Worth a Prompt: Versatile Image Editing with Disentangled Control ( http://arxiv.org/abs/2403.04880v2 )

ライセンス: Link先を確認
Aosong Feng, Weikang Qiu, Jinbin Bai, Xiao Zhang, Zhen Dong, Kaicheng Zhou, Rex Ying, Leandros Tassiulas, (参考訳) テキスト・ツー・イメージ拡散モデル(DPM)の成功に基づき、画像編集はAI生成コンテンツとのヒューマンインタラクションを可能にする重要なアプリケーションである。 様々な編集方法の中で、プロンプト空間内での編集は、セマンティクスを制御する能力と単純さにより、より注目される。 しかし、拡散モデルは通常、説明文のキャプションで事前訓練されているため、テキストプロンプトでの単語の直接編集は、画像編集の要件に違反して、完全に異なる画像を生成するのが普通である。 一方、既存の編集手法では、通常はDPMによって無視され、不調和な編集結果につながる未編集領域のアイデンティティを保持するために、通常、空間マスクの導入を検討する。 本研究では,これら2つの課題を目標として,各項目が特別な学習プロンプトに関連付けられているため,包括的イメージ・プロンプト相互作用をいくつかの項目・プロンプト相互作用に分解することを提案する。 D-Editという名前のフレームワークは、クロスアテンション層が絡み合った事前訓練された拡散モデルに基づいており、アイテムプロンプトアソシエーションを構築するために2段階の最適化を採用する。 そして、対応するプロンプトを操作することで、特定のアイテムにバーサタイル画像編集を適用することができる。 我々は、画像ベース、テキストベース、マスクベースの編集、アイテム削除を含む4種類の編集操作において、ほとんどの種類の編集アプリケーションを1つの統一フレームワークでカバーし、最先端の結果を実証する。 特にD-Editは,(1)マスク編集による項目編集を実現し,(2)画像とテキストベースの編集を組み合わせた最初のフレームワークである。 質的および定量的な評価により,多様な画像の編集結果の品質と汎用性を実証する。

Building on the success of text-to-image diffusion models (DPMs), image editing is an important application to enable human interaction with AI-generated content. Among various editing methods, editing within the prompt space gains more attention due to its capacity and simplicity of controlling semantics. However, since diffusion models are commonly pretrained on descriptive text captions, direct editing of words in text prompts usually leads to completely different generated images, violating the requirements for image editing. On the other hand, existing editing methods usually consider introducing spatial masks to preserve the identity of unedited regions, which are usually ignored by DPMs and therefore lead to inharmonic editing results. Targeting these two challenges, in this work, we propose to disentangle the comprehensive image-prompt interaction into several item-prompt interactions, with each item linked to a special learned prompt. The resulting framework, named D-Edit, is based on pretrained diffusion models with cross-attention layers disentangled and adopts a two-step optimization to build item-prompt associations. Versatile image editing can then be applied to specific items by manipulating the corresponding prompts. We demonstrate state-of-the-art results in four types of editing operations including image-based, text-based, mask-based editing, and item removal, covering most types of editing applications, all within a single unified framework. Notably, D-Edit is the first framework that can (1) achieve item editing through mask editing and (2) combine image and text-based editing. We demonstrate the quality and versatility of the editing results for a diverse collection of images through both qualitative and quantitative evaluations.
翻訳日:2024-05-30 01:09:03 公開日:2024-05-28
# AutoEval Done Right: モデル評価に合成データを使用する

AutoEval Done Right: Using Synthetic Data for Model Evaluation ( http://arxiv.org/abs/2403.07008v2 )

ライセンス: Link先を確認
Pierre Boyeau, Anastasios N. Angelopoulos, Nir Yosef, Jitendra Malik, Michael I. Jordan, (参考訳) 人間のラベル付き検証データを用いた機械学習モデルの評価は高価で時間を要する可能性がある。 AIラベル付き合成データは、自動評価と呼ばれるプロセスにおいて、この目的のために必要とされる人間のアノテーションの数を減らすために使用できる。 この目的のために,非偏りを保ちながら試料効率を向上させるための効率的で統計的に原理化されたアルゴリズムを提案する。 これらのアルゴリズムは、GPT-4の実験において、有効にラベル付けされたサンプルサイズを最大50%増加させる。

The evaluation of machine learning models using human-labeled validation data can be expensive and time-consuming. AI-labeled synthetic data can be used to decrease the number of human annotations required for this purpose in a process called autoevaluation. We suggest efficient and statistically principled algorithms for this purpose that improve sample efficiency while remaining unbiased. These algorithms increase the effective human-labeled sample size by up to 50% on experiments with GPT-4.
翻訳日:2024-05-30 01:09:03 公開日:2024-05-28
# Lumen: 大規模マルチモーダルモデルの可視光中心能力の解放

Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models ( http://arxiv.org/abs/2403.07304v2 )

ライセンス: Link先を確認
Yang Jiao, Shaoxiang Chen, Zequn Jie, Jingjing Chen, Lin Ma, Yu-Gang Jiang, (参考訳) 大規模マルチモーダルモデル(LMM)はコンピュータビジョン領域におけるホットな研究課題であり、また複数の分野にまたがる顕著な可能性を示した。 最近のトレンドは、LMMの知覚能力をさらに拡張し、強化することである。 現在の手法は、視覚的タスク出力をLMMの主成分である言語モデルの形式に適応するパラダイムに従っている。 この適応により、最小限の修正を施したLMMの簡便な開発がもたらされるが、多様な視覚タスクの本質的な特徴を見落とし、知覚能力の学習を妨げる。 この問題に対処するために,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。 我々はLMMの知覚能力の学習をタスク非依存およびタスク特化段階に分離する。 ルーメンはまず、様々な視覚タスクの基本的な能力である、きめ細かい視覚言語概念のアライメントを促進する。 したがって、タスク非依存段階の出力は、本稿で扱う全てのタスクの共有表現である。 そして、共有表現を無視可能な訓練努力を伴う軽量タスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。 一連の視覚中心およびVQAベンチマークにおける総合的な実験結果から、我々のルーメンモデルは、視覚中心のタスクにおいて既存のLMMベースのアプローチの性能を達成または超越するだけでなく、一般的な視覚的理解と指示追従能力を維持しつつも、様々な視覚中心のタスクを達成または超越していることが示された。 コードはhttps://github.com/SxJyJay/Lumen.comでリリースされる。

Large Multimodal Model (LMM) is a hot research topic in the computer vision area and has also demonstrated remarkable potential across multiple disciplinary fields. A recent trend is to further extend and enhance the perception capabilities of LMMs. The current methods follow the paradigm of adapting the visual task outputs to the format of the language model, which is the main component of a LMM. This adaptation leads to convenient development of such LMMs with minimal modifications, however, it overlooks the intrinsic characteristics of diverse visual tasks and hinders the learning of perception capabilities. To address this issue, we propose a novel LMM architecture named Lumen, a Large multimodal model with versatile vision-centric capability enhancement. We decouple the LMM's learning of perception capabilities into task-agnostic and task-specific stages. Lumen first promotes fine-grained vision-language concept alignment, which is the fundamental capability for various visual tasks. Thus the output of the task-agnostic stage is a shared representation for all the tasks we address in this paper. Then the task-specific decoding is carried out by flexibly routing the shared representation to lightweight task decoders with negligible training efforts. Comprehensive experimental results on a series of vision-centric and VQA benchmarks indicate that our Lumen model not only achieves or surpasses the performance of existing LMM-based approaches in a range of vision-centric tasks while maintaining general visual understanding and instruction following capabilities. The code will be released at https://github.com/SxJyJay/Lumen.
翻訳日:2024-05-30 01:09:03 公開日:2024-05-28
# SVD-LLM:大規模言語モデル圧縮のためのトランケーション対応特異値分解

SVD-LLM: Truncation-aware Singular Value Decomposition for Large Language Model Compression ( http://arxiv.org/abs/2403.07378v4 )

ライセンス: Link先を確認
Xin Wang, Yu Zheng, Zhongwei Wan, Mi Zhang, (参考訳) 大規模言語モデル (LLMs) の進歩は, LLM 圧縮法を実用的展開に必要としていた, 相当なサイズによって妨げられている。 Singular Value Decomposition (SVD)は、LLM圧縮のための有望なソリューションを提供する。 しかし、最先端のSVDベースのLLM圧縮法には、2つの重要な制限がある: より小さい特異値の切り抜きは、圧縮損失を増大させ、SVDの切り抜き後の圧縮重量の更新が欠如する。 本研究では,既存の手法の制約に対処する新たなSVD-LLM圧縮手法であるSVD-LLMを提案する。 SVD-LLMは、特異値と圧縮損失の直接マッピングを保証するために、トラクション対応のデータホワイトニング戦略を組み込んでいる。 さらに, SVD-LLMでは, 高圧縮比下での精度劣化を補償するために, 階層単位の閉形式モデル更新戦略を採用している。 SVD-LLMを4つの異なるスケールで3つのLLMファミリーから合計10のデータセットと8つのモデルで評価した。 以上の結果から, SVD-LLMは最先端技術, 特に高モデル圧縮比よりも優れていることが示された。

The advancements in Large Language Models (LLMs) have been hindered by their substantial sizes, which necessitate LLM compression methods for practical deployment. Singular Value Decomposition (SVD) offers a promising solution for LLM compression. However, state-of-the-art SVD-based LLM compression methods have two key limitations: truncating smaller singular values may lead to higher compression loss, and the lack of update on the compressed weight after SVD truncation. In this work, we propose SVD-LLM, a new SVD-based LLM compression method that addresses the limitations of existing methods. SVD-LLM incorporates a truncation-aware data whitening strategy to ensure a direct mapping between singular values and compression loss. Moreover, SVD-LLM adopts a layer-wise closed-form model parameter update strategy to compensate for accuracy degradation under high compression ratios. We evaluate SVD-LLM on a total of 10 datasets and eight models from three different LLM families at four different scales. Our results demonstrate the superiority of SVD-LLM over state-of-the-arts, especially at high model compression ratios.
翻訳日:2024-05-30 01:09:03 公開日:2024-05-28
# Refractive COLMAP: Refractive Structure-from-Motion Revisited

Refractive COLMAP: Refractive Structure-from-Motion Revisited ( http://arxiv.org/abs/2403.08640v2 )

ライセンス: Link先を確認
Mengkun She, Felix Seegräber, David Nakath, Kevin Köser, (参考訳) 本稿では, 屈折型カメラ装置を用いた水中3次元再構成のための完全屈折型構造移動(RSfM)フレームワークを提案する。 過去10年間の屈折率多視点幾何学の顕著な成果にもかかわらず、そのようなタスクに対する頑健で完全かつ一般公開された解は現時点では入手できず、しばしば実用的応用は、ピンホールカメラモデルの内在的(歪み)パラメータによる屈折率の近似に頼らざるを得ない。 このギャップを埋めるために、我々はSfMプロセス全体を通して、最先端のオープンソースのSfMフレームワークCOLMAPに統合した。 地上の真理を持つ合成生成光実写画像の数値シミュレーションと再構成結果から, 屈折を許容することは, 空気中の再構成に比べて精度や頑健さを損なうことはないことが確認された。 最後に,6000枚近い画像からなるデータセットを用いて,大規模屈折率シナリオに対するアプローチの有効性を示す。 実装は、https://cau-git.rz.uni-kiel.de/inf-ag-koeser/colmap_underwaterでオープンソースとしてリリースされた。

In this paper, we present a complete refractive Structure-from-Motion (RSfM) framework for underwater 3D reconstruction using refractive camera setups (for both, flat- and dome-port underwater housings). Despite notable achievements in refractive multi-view geometry over the past decade, a robust, complete and publicly available solution for such tasks is not available at present, and often practical applications have to resort to approximating refraction effects by the intrinsic (distortion) parameters of a pinhole camera model. To fill this gap, we have integrated refraction considerations throughout the entire SfM process within the state-of-the-art, open-source SfM framework COLMAP. Numerical simulations and reconstruction results on synthetically generated but photo-realistic images with ground truth validate that enabling refraction does not compromise accuracy or robustness as compared to in-air reconstructions. Finally, we demonstrate the capability of our approach for large-scale refractive scenarios using a dataset consisting of nearly 6000 images. The implementation is released as open-source at: https://cau-git.rz.uni-kiel.de/inf-ag-koeser/colmap_underwater.
翻訳日:2024-05-30 01:09:03 公開日:2024-05-28
# 3次元ガウススプラッティングにおける正確な初期化制約の緩和

Relaxing Accurate Initialization Constraint for 3D Gaussian Splatting ( http://arxiv.org/abs/2403.09413v2 )

ライセンス: Link先を確認
Jaewoo Jung, Jisang Han, Honggyu An, Jiwon Kang, Seonghoon Park, Seungryong Kim, (参考訳) 3次元ガウシアンスプラッティング(3DGS)は,近年,リアルタイムの新規視像合成と3次元再構成において顕著な能力を示した。 しかし、3DGSはStructure-from-Motion (SfM)法に由来する正確な初期化に大きく依存している。 ノイズの有無やランダムに初期化点雲を使用する場合などの初期点雲の品質が低下すると、3DGSはしばしば大きな性能低下を経験する。 この制限に対処するため,我々は RAIN-GS (Relaing Accurate Initialization Constraint for 3D Gaussian Splatting) と呼ばれる新しい最適化手法を提案する。 提案手法は,元の3DGS最適化方式の詳細な解析と周波数領域におけるSfM初期化の解析に基づいている。 我々の分析に基づいて簡単な修正を施し、3Dガウスを準最適点雲(例えばランダムに初期化点雲)から訓練し、正確な初期化の必要性を効果的に緩和した。 ランダムポイントクラウドでトレーニングされたRAIN-GSは、正確なSfMポイントクラウドでトレーニングされた3DGSよりも高いパフォーマンスを達成する。 私たちのプロジェクトページとコードは、https://ku-cvlab.github.io/RAIN-GS.orgで参照できます。

3D Gaussian splatting (3DGS) has recently demonstrated impressive capabilities in real-time novel view synthesis and 3D reconstruction. However, 3DGS heavily depends on the accurate initialization derived from Structure-from-Motion (SfM) methods. When the quality of the initial point cloud deteriorates, such as in the presence of noise or when using randomly initialized point cloud, 3DGS often undergoes large performance drops. To address this limitation, we propose a novel optimization strategy dubbed RAIN-GS (Relaing Accurate Initialization Constraint for 3D Gaussian Splatting). Our approach is based on an in-depth analysis of the original 3DGS optimization scheme and the analysis of the SfM initialization in the frequency domain. Leveraging simple modifications based on our analyses, RAIN-GS successfully trains 3D Gaussians from sub-optimal point cloud (e.g., randomly initialized point cloud), effectively relaxing the need for accurate initialization. We demonstrate the efficacy of our strategy through quantitative and qualitative comparisons on multiple datasets, where RAIN-GS trained with random point cloud achieves performance on-par with or even better than 3DGS trained with accurate SfM point cloud. Our project page and code can be found at https://ku-cvlab.github.io/RAIN-GS.
翻訳日:2024-05-30 00:59:19 公開日:2024-05-28
# 溶媒を意識した2次元NMR予測:マルチタスクトレーニングと反復自己学習戦略の活用

Solvent-Aware 2D NMR Prediction: Leveraging Multi-Tasking Training and Iterative Self-Training Strategies ( http://arxiv.org/abs/2403.11353v2 )

ライセンス: Link先を確認
Yunrui Li, Hao Xu, Pengyu Hong, (参考訳) 核磁気共鳴(NMR)分光法は様々な科学分野において重要であり、詳細な構造情報、電子特性、分子動力学の洞察を明らかにする。 分子構造からのスペクトルにおけるNMRピークの正確な予測は、化学者がNMRスペクトルの実験的シフトと比較することによって、候補構造を効果的に評価することができる。 このプロセスはピークの割り当てを促進するため、分子構造の検証や相違点の同定に寄与する。 機械学習(ML)アプローチによる1次元NMRの予測には大きな進歩があるが、注釈付き2次元NMRトレーニングデータセットがないため、2次元NMR予測は依然として課題である。 このギャップに対処するため,実験2次元NMRスペクトルにおける原子2次元NMR交差ピークの予測とアノテートピークの予測のための機械学習モデルを訓練するための反復的教師なし学習(IUL)手法を提案する。 当初、このモデルは注釈付き1D 1Hと13C NMRスペクトルを用いてマルチタスク事前訓練(MTT)フェーズを行う。 次に、IULを用いた微調整プロセスによりモデルの改善を行い、未ラベルの2D NMRデータにアノテートするためにモデルを使用することと、新たに生成されたアノテーションを用いてモデルを精査することとを交互に交互に行う。 提案手法を用いて、19,000個のヘテロ核単一量子コヒーレンス(HSQC)スペクトルを用いてモデルをトレーニングし、専門家アノテーションを用いた500個のHSQCスペクトル上でテストし、さらに別の専門家アノテーション付きHSQCデータセット上の2つの従来手法(ChemDrawとMestrenova)と比較した。 HSQCクロスピーク予測では,テストデータセット上の13Cシフトに対して2.035 ppmと0.163 ppmのMAEを達成し,従来のツールよりも優れていた。 この性能は、化学シフトを正確に予測するモデルの性能だけでなく、実験用HSQCスペクトルのピーク割り当てにおける有効性を示す。

Nuclear magnetic resonance (NMR) spectroscopy is crucial across diverse scientific fields, revealing detailed structural information, electronic properties, and molecular dynamic insights. Accurate prediction of NMR peaks in a spectrum from molecular structures allows chemists to effectively evaluate candidate structures by comparing predictions with experimental shifts in an NMR spectra. This process facilitates peak assignments, thereby aiding in verifying molecular structures or identifying discrepancies. Although significant progress has been made in predicting 1D NMR with Machine Learning (ML) approaches, 2D NMR prediction remains a challenge due to the lack of an annotated 2D NMR training dataset. To address this gap, we propose an Iterative Unsupervised Learning (IUL) approach to train a machine learning model for predicting atomic 2D NMR cross peaks and annotating peaks in experimental 2D NMR spectra. Initially, the model undergoes a Multi-Task pre-Training (MTT) phase using a set of annotated 1D 1H and 13C NMR spectra. Then, the model is iteratively improved through a fine-tuning process with IUL, alternating between using the model to annotate the unlabeled 2D NMR data and refining the model using the newly generated annotations. Using the proposed approach, we trained our model on 19,000 Heteronuclear Single Quantum Coherence (HSQC) spectra, tested it on 500 HSQC spectra with expert annotations, and further compared it with two traditional methods (ChemDraw and Mestrenova) on another expert-annotated HSQC dataset. For HSQC cross peak prediction, our model achieves MAE of 2.035 ppm and 0.163 ppm for 13C shifts and 1H shifts on the test dataset, respectively, and outperforms the conventional tools. This performance demonstrates not only the model's capability in accurately predicting chemical shifts, but also its effectiveness in peak assignments for experimental HSQC spectra.
翻訳日:2024-05-30 00:59:19 公開日:2024-05-28
# 干渉計における回折限界に打ち勝つインテンシティ生成物に基づく光センシング

Intensity product-based optical sensing to beat the diffraction limit in an interferometer ( http://arxiv.org/abs/2403.13029v2 )

ライセンス: Link先を確認
Byoung S. Ham, (参考訳) 古典的に定義された光学相の最小不確実性は、量子力学の不確実性原理に由来する標準量子極限またはショットノイズ極限(SNL)として知られている。 SNLに基づいて位相感度は正方根Kに逆比例し、Kは干渉光子数または統計的に測定された事象数である。 これにより、高出力レーザーを用いることで、信号対雑音比の平方根Kゲインによる感度を高めることができる。 しかし、典型的な干渉計では、量子センシングのように干渉光子が分解されない限り、分解能はK=1の場合の回折限界に留まる。 ここでは、量子センシングにおける投影測定法を干渉計に適応させ、さらに2乗根Kゲインを分解能で達成する。 プロジェクション測定では、干渉計の干渉縞をKth動力でKthオーダーの強度積を置き換えることができる。 マルチウェーブ干渉による高分解能化を理解するために、いくつかの種類の干渉計を数値的に比較し、対応する分解能パラメータを描画する。 その結果、KthパワーによるN-スリット干渉計の分解能は、量子センシングにおける回折限界とハイゼンベルク限界を超えている。

The classically defined minimum uncertainty of the optical phase is known as the standard quantum limit or shot-noise limit (SNL) originating in the uncertainty principle of quantum mechanics. Based on SNL, the phase sensitivity is inversely proportional to the square root K, where K is the number of interfering photons or statistically measured events. Thus, using a high-power laser is advantageous to enhance sensitivity due to the square root K gain in the signal-to-noise ratio. In a typical interferometer, however, the resolution remains in the diffraction limit of the K=1 case unless the interfering photons are resolved as in quantum sensing. Here, a projection-measurement method in quantum sensing is adapted for an interferometer to achieve an additional square root K gain in resolution. For the projection measurement, the interference fringe of an interferometer can be Kth-powered to replace the Kth-order intensity product. To understand many-wave interference-caused enhanced resolution, several types of interferometers are numerically compared to draw corresponding resolution parameters. As a result, the achieved resolution by the Kth power to an N-slit interferometer exceeds the diffraction limit and the Heisenberg limit in quantum sensing.
翻訳日:2024-05-30 00:59:19 公開日:2024-05-28
# 知識編集による大規模言語モデルのデトックス化

Detoxifying Large Language Models via Knowledge Editing ( http://arxiv.org/abs/2403.14472v5 )

ライセンス: Link先を確認
Mengru Wang, Ningyu Zhang, Ziwen Xu, Zekun Xi, Shumin Deng, Yunzhi Yao, Qishen Zhang, Linyi Yang, Jindong Wang, Huajun Chen, (参考訳) 本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。 我々は、安全でない9つのカテゴリを様々な強力なアタックプロンプトでカバーし、体系的な評価のために総合的なメトリクスを装備するベンチマーク、SafeEditを構築した。 いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。 そこで我々は,DINM(Detoxifying with intraoperative Neural Monitoring)と呼ばれるシンプルなベースラインを提案する。 さらに, 従来のSFT法やDPO法は毒性パラメータの活性化を抑制するだけであり, DINM法は毒性パラメータの毒性をある程度軽減し, 恒久的な調整を行うことを実証した。 これらの知見が,LSMの非毒性化アプローチと基盤となる知識メカニズムの今後の研究に光を当てることが期待できる。 コードとベンチマークはhttps://github.com/zjunlp/EasyEdit.comで公開されている。

This paper investigates using knowledge editing techniques to detoxify Large Language Models (LLMs). We construct a benchmark, SafeEdit, which covers nine unsafe categories with various powerful attack prompts and equips comprehensive metrics for systematic evaluation. We conduct experiments with several knowledge editing approaches, indicating that knowledge editing has the potential to detoxify LLMs with a limited impact on general performance efficiently. Then, we propose a simple yet effective baseline, dubbed Detoxifying with Intraoperative Neural Monitoring (DINM), to diminish the toxicity of LLMs within a few tuning steps via only one instance. We further provide an in-depth analysis of the internal mechanism for various detoxifying approaches, demonstrating that previous methods like SFT and DPO may merely suppress the activations of toxic parameters, while DINM mitigates the toxicity of the toxic parameters to a certain extent, making permanent adjustments. We hope that these insights could shed light on future work of developing detoxifying approaches and the underlying knowledge mechanisms of LLMs. Code and benchmark are available at https://github.com/zjunlp/EasyEdit.
翻訳日:2024-05-30 00:59:19 公開日:2024-05-28
# 大規模言語モデルエージェントを用いたアセット管理シェルの生成:産業4.0におけるデジタル双生児のセマンティック相互運用に向けて

Generation of Asset Administration Shell with Large Language Model Agents: Towards Semantic Interoperability in Digital Twins in the Context of Industry 4.0 ( http://arxiv.org/abs/2403.17209v2 )

ライセンス: Link先を確認
Yuchen Xia, Zhewen Xiao, Nasser Jazdi, Michael Weyrich, (参考訳) 本研究では,デジタル双生児におけるセマンティック・インターオペラビリティの実現と,産業4.0におけるデジタル双生児モデルとしてのアセット・アドミニストレーション・シェル(AAS)の作成を支援する新しいアプローチを提案する。 本研究の基本的な考え方は,意味論に基づくコミュニケーションと有意義なテキストデータ生成が直接リンクされていることである。 そこで本研究では,テキストデータのセマンティックな意味を捉えた「意味ノード」データ構造を構築した。 次に,大規模言語モデルを用いたシステムの設計と実装を行い,技術資産を記述したデータシートから収集した原文データから「意味ノード」を処理し,標準化されたデジタルツインモデルを生成する。 評価の結果,62~79%の有効生成率を示し,大言語モデルの生成能力を有するディジタルツインインスタンスモデルに対して,ソーステキストからの情報のかなりの割合を誤りなく翻訳できることが示唆された。 この結果は、Industrial 4.0の文脈で直接適用され、AASモデルを作成する際の手作業を減らすためのデータモデル生成ツールとして実装される。 本評価では、異なるLLMの比較分析と、レトリーバル拡張生成(RAG)機構の詳細なアブレーション研究により、LLMシステムの技術的概念の解釈とデータ翻訳における有効性について考察する。 本研究は,ALSインスタンスの自動生成能力を強調し,産業アプリケーションにおけるデジタル双生児のセマンティック相互運用性の幅広い分野に寄与する。 プロトタイプの実装と評価結果はGitHub Repositoryで発表されています。

This research introduces a novel approach for achieving semantic interoperability in digital twins and assisting the creation of Asset Administration Shell (AAS) as digital twin model within the context of Industry 4.0. The foundational idea of our research is that the communication based on semantics and the generation of meaningful textual data are directly linked, and we posit that these processes are equivalent if the exchanged information can be serialized in text form. Based on this, we construct a "semantic node" data structure in our research to capture the semantic essence of textual data. Then, a system powered by large language models is designed and implemented to process the "semantic node" and generate standardized digital twin models from raw textual data collected from datasheets describing technical assets. Our evaluation demonstrates an effective generation rate of 62-79%, indicating a substantial proportion of the information from the source text can be translated error-free to the target digital twin instance model with the generative capability of large language models. This result has a direct application in the context of Industry 4.0, and the designed system is implemented as a data model generation tool for reducing the manual effort in creating AAS model. In our evaluation, a comparative analysis of different LLMs and an in-depth ablation study of Retrieval-Augmented Generation (RAG) mechanisms provide insights into the effectiveness of LLM systems for interpreting technical concepts and translating data. Our findings emphasize LLMs' capability to automate AAS instance creation and contribute to the broader field of semantic interoperability for digital twins in industrial applications. The prototype implementation and evaluation results are presented on our GitHub Repository: https://github.com/YuchenXia/AASbyLLM.
翻訳日:2024-05-30 00:59:19 公開日:2024-05-28
# R2D2を用いたスケーラブル非カルテシアン磁気共鳴イメージング

Scalable Non-Cartesian Magnetic Resonance Imaging with R2D2 ( http://arxiv.org/abs/2403.17905v3 )

ライセンス: Link先を確認
Yiwei Chen, Chao Tang, Amir Aghabiglou, Chung San Chu, Yves Wiaux, (参考訳) 非カルテシアン磁気共鳴画像再構成のための新しい手法を提案する。 アンロールアーキテクチャはデータ一貫性レイヤを介して堅牢性を提供するが、ディープニューラルネットワーク(DNN)に計測演算子を埋め込むことは、大規模に非現実的になる可能性がある。 代替的なPlug-and-Play(PnP)アプローチでは、DNNは測定環境に不自由であり、この制限の影響を受けず、有効性も証明されているが、その高い反復性はスケーラビリティにも影響を及ぼす。 このスケーラビリティ問題に対処するために、最近天文学的イメージングで導入された「Residual-to-Residual DNNシリーズ」を高ダイナミックレンジイメージング(R2D2)に活用する。 R2D2の再構成は一連の残像として形成され、前回の繰り返しの画像推定と関連するデータを入力として取り込んだDNNの出力として反復的に推定される。 この方法はMatching Pursuitアルゴリズムの学習版と解釈できる。 我々は、ラジアルk空間サンプリング取得シーケンスを考慮したシミュレーションでR2D2を実証する。 我々の予備的な結果は、R2D2が達成できることを示唆している。 (i) NUFFT ベースのデータ一貫性層を組み込む必要により,R2D2-Net は拡張不可能である。 (II)データ一貫性のためのFFTに基づく近似を組み込んだR2D2-Netのスケーラブル版に優れた再構成品質 (3)PnPの再現性は優れているが、イテレーションは少ない。

We propose a new approach for non-Cartesian magnetic resonance image reconstruction. While unrolled architectures provide robustness via data-consistency layers, embedding measurement operators in Deep Neural Network (DNN) can become impractical at large scale. Alternative Plug-and-Play (PnP) approaches, where the denoising DNNs are blind to the measurement setting, are not affected by this limitation and have also proven effective, but their highly iterative nature also affects scalability. To address this scalability challenge, we leverage the "Residual-to-Residual DNN series for high-Dynamic range imaging (R2D2)" approach recently introduced in astronomical imaging. R2D2's reconstruction is formed as a series of residual images, iteratively estimated as outputs of DNNs taking the previous iteration's image estimate and associated data residual as inputs. The method can be interpreted as a learned version of the Matching Pursuit algorithm. We demonstrate R2D2 in simulation, considering radial k-space sampling acquisition sequences. Our preliminary results suggest that R2D2 achieves: (i) suboptimal performance compared to its unrolled incarnation R2D2-Net, which is however non-scalable due to the necessary embedding of NUFFT-based data-consistency layers; (ii) superior reconstruction quality to a scalable version of R2D2-Net embedding an FFT-based approximation for data consistency; (iii) superior reconstruction quality to PnP, while only requiring few iterations.
翻訳日:2024-05-30 00:59:19 公開日:2024-05-28
# 概念から実装までの大規模言語モデルに関する調査

A Survey on Large Language Models from Concept to Implementation ( http://arxiv.org/abs/2403.18969v2 )

ライセンス: Link先を確認
Chen Wang, Jin Zhao, Jiaqi Gong, (参考訳) 近年のLarge Language Models(LLM)の進歩、特にTransformerアーキテクチャ上に構築されているものは、自然言語処理(NLP)アプリケーションの範囲を大きく拡大し、チャットボット技術での最初の使用を超越している。 本稿では,これらのモデルの多面的応用について検討し,GPTシリーズに着目した。 この調査は、コーディングや問題解決といった従来のタスクに革命をもたらす人工知能(AI)駆動ツールの変革的な影響に焦点を当てると同時に、さまざまな産業にまたがる研究と開発の新たな道を開いた。 コード解釈や画像キャプションからインタラクティブなシステムの構築や計算領域の進化まで、Transformerモデルはディープラーニング、データ分析、ニューラルネットワーク設計のシナジーを実証している。 この調査では、Transformerモデルの最新の研究を詳細に分析し、その汎用性と、多様なアプリケーションセクターを変革する可能性を強調した上で、TransformerベースのLCMの現在の状況と将来の展望を、実践的な応用において包括的に理解した読者に提供する。

Recent advancements in Large Language Models (LLMs), particularly those built on Transformer architectures, have significantly broadened the scope of natural language processing (NLP) applications, transcending their initial use in chatbot technology. This paper investigates the multifaceted applications of these models, with an emphasis on the GPT series. This exploration focuses on the transformative impact of artificial intelligence (AI) driven tools in revolutionizing traditional tasks like coding and problem-solving, while also paving new paths in research and development across diverse industries. From code interpretation and image captioning to facilitating the construction of interactive systems and advancing computational domains, Transformer models exemplify a synergy of deep learning, data analysis, and neural network design. This survey provides an in-depth look at the latest research in Transformer models, highlighting their versatility and the potential they hold for transforming diverse application sectors, thereby offering readers a comprehensive understanding of the current and future landscape of Transformer-based LLMs in practical applications.
翻訳日:2024-05-30 00:59:19 公開日:2024-05-28
# PiSSA:大言語モデルの主特異値と特異ベクトル適応

PiSSA: Principal Singular Values and Singular Vectors Adaptation of Large Language Models ( http://arxiv.org/abs/2404.02948v3 )

ライセンス: Link先を確認
Fanxu Meng, Zhaohui Wang, Muhan Zhang, (参考訳) パラメータ効率のよいPEFT(英語版)大言語モデル (LLMs) に対して、ローランク適応 (LoRA) 法はモデルの変更を近似する$\Delta W \in \mathbb{R}^{m \times n}$ 2つの行列の積$A \in \mathbb{R}^{m \times r}$と$B \in \mathbb{R}^{r \times n}$、$r \ll \min(m, n)$、$A$はガウス雑音で初期化される$B$である。 LoRAはオリジナルのモデルである$W$をフリーズし、"Noise & Zero"アダプタを更新する。 この制限を克服するために、主特異値と特異ベクトル適応(PiSSA)を導入する。 PiSSAはLoRAと同じアーキテクチャを共有しているが、適応行列の$A$と$B$を元の行列の主成分である$W$で初期化し、残りのコンポーネントを残留行列の$W^{res} \in \mathbb{R}^{m \times n}$に置き、微調整中に凍結する。 LoRAと比較すると、PiSSAは主コンポーネントを更新し、"残留"部分を凍結することで、より高速な収束とパフォーマンスの向上を実現している。 5つのNLGタスクと8つのNLUタスクを含む184Mから70Bまで、12種類のモデルにわたるPiSSAとLoRAの比較実験により、PiSSAは同じ実験装置で一貫してLoRAを上回っていることが明らかになった。 GSM8Kベンチマークでは、PiSSAで微調整されたMistral-7Bの精度は72.86%に達し、ロラの67.7%を5.16%上回った。 同じアーキテクチャのため、PiSSAは量子化と互換性があり、微調整のメモリ要求をさらに削減できる。 QLoRAと比較すると、QPiSSA(PiSSAと4ビット量子化)は初期段階でより小さい量子化誤差を示す。 GSM8K上の微調整LLaMA-3-70Bでは、QPiSSAの精度は86.05%に達し、QLoRAの性能は81.73%を超えた。 高速なSVD技術を利用すると、PiSSAはほんの数秒で初期化でき、LoRAからPiSSAへの移行には無視できるコストがかかる。

To parameter-efficiently fine-tune (PEFT) large language models (LLMs), the low-rank adaptation (LoRA) method approximates the model changes $\Delta W \in \mathbb{R}^{m \times n}$ through the product of two matrices $A \in \mathbb{R}^{m \times r}$ and $B \in \mathbb{R}^{r \times n}$, where $r \ll \min(m, n)$, $A$ is initialized with Gaussian noise, and $B$ with zeros. LoRA freezes the original model $W$ and updates the "Noise & Zero" adapter, which may lead to slow convergence. To overcome this limitation, we introduce Principal Singular values and Singular vectors Adaptation (PiSSA). PiSSA shares the same architecture as LoRA, but initializes the adaptor matrices $A$ and $B$ with the principal components of the original matrix $W$, and put the remaining components into a residual matrix $W^{res} \in \mathbb{R}^{m \times n}$ which is frozen during fine-tuning. Compared to LoRA, PiSSA updates the principal components while freezing the "residual" parts, allowing faster convergence and enhanced performance. Comparative experiments of PiSSA and LoRA across 12 different models, ranging from 184M to 70B, encompassing 5 NLG and 8 NLU tasks, reveal that PiSSA consistently outperforms LoRA under identical experimental setups. On the GSM8K benchmark, Mistral-7B fine-tuned with PiSSA achieves an accuracy of 72.86%, surpassing LoRA's 67.7% by 5.16%. Due to the same architecture, PiSSA is also compatible with quantization to further reduce the memory requirement of fine-tuning. Compared to QLoRA, QPiSSA (PiSSA with 4-bit quantization) exhibits smaller quantization errors in the initial stages. Fine-tuning LLaMA-3-70B on GSM8K, QPiSSA attains an accuracy of 86.05%, exceeding the performances of QLoRA at 81.73%. Leveraging a fast SVD technique, PiSSA can be initialized in only a few seconds, presenting a negligible cost for transitioning from LoRA to PiSSA.
翻訳日:2024-05-30 00:59:19 公開日:2024-05-28
# ROPO:大規模言語モデルに対するロバストな選好最適化

ROPO: Robust Preference Optimization for Large Language Models ( http://arxiv.org/abs/2404.04102v2 )

ライセンス: Link先を確認
Xize Liang, Chao Chen, Shuang Qiu, Jie Wang, Yue Wu, Zhihang Fu, Zhihao Shi, Feng Wu, Jieping Ye, (参考訳) 大規模言語モデル(LLM)を有効かつ無害な応答に活用するためには、優先アライメントが重要である。 しかし、選好アライメントの性能は、選好データにおける相応の雑音に非常に敏感である。 この問題に対する近年の取り組みは、実際に存在感を減らさずにノイズの影響を極端に緩和するか、あるいは、コストのかかるLLMに頼って誤一般化を報いるかのどちらかである。 これらの課題に対処するため, RObust Preference Optimization (ROPO) フレームワークを提案する。 具体的には、ROPOは制約付き最適化問題を反復的に解決し、各サンプルに品質を考慮した重みを動的に割り当て、重みの和を保持するサンプルの数に制限する。 耐雑音性トレーニングと有効雑音識別のために, 不確実性の高い試料の勾配を抑えることにより, 頑健な損失を導出する。 ノイズのあるサンプルとクリーンなサンプルを区別するためには, 導出損失が重要であることを実証的および理論的に証明する。 さらに, 提案手法は, 提案手法に着想を得て, 廃クエリにおける潜在的重要な情報を補うためのロバストネス誘導型リジェクションサンプリング手法を提案する。 Mistral-7B と Llama-2-7B による3つの広く使われているデータセットの実験により、ROPO はノイズ率の増大に伴って、既存の嗜好アライメント手法を著しく上回っていることが示された。

Preference alignment is pivotal for empowering large language models (LLMs) to generate helpful and harmless responses. However, the performance of preference alignment is highly sensitive to the prevalent noise in the preference data. Recent efforts for this problem either marginally alleviate the impact of noise without the ability to actually reduce its presence, or rely on costly teacher LLMs prone to reward misgeneralization. To address these challenges, we propose the RObust Preference Optimization (ROPO) framework, an iterative alignment approach that integrates noise-tolerance and filtering of noisy samples without the aid of external models. Specifically, ROPO iteratively solves a constrained optimization problem, where we dynamically assign a quality-aware weight for each sample and constrain the sum of the weights to the number of samples we intend to retain. For noise-tolerant training and effective noise identification, we derive a robust loss by suppressing the gradients of samples with high uncertainty. We demonstrate both empirically and theoretically that the derived loss is critical for distinguishing noisy samples from clean ones. Furthermore, inspired by our derived loss, we propose a robustness-guided rejection sampling technique to compensate for the potential important information in discarded queries. Experiments on three widely-used datasets with Mistral-7B and Llama-2-7B demonstrate that ROPO significantly outperforms existing preference alignment methods, with its superiority growing as the noise rate increases.
翻訳日:2024-05-30 00:59:19 公開日:2024-05-28
# テキスト・画像モデルの多目的パーソナライズのためのアイデンティティ・デカップリング

Identity Decoupling for Multi-Subject Personalization of Text-to-Image Models ( http://arxiv.org/abs/2404.04243v2 )

ライセンス: Link先を確認
Sangwon Jang, Jaehyeong Jo, Kimin Lee, Sung Ju Hwang, (参考訳) テキスト・ツー・イメージ拡散モデルでは、いくつかの参照画像に基づいてパーソナライズされた被写体を生成することに顕著な成功を収めている。 しかし、複数の被写体を同時に生成する際には、現在の手法が失敗することが多く、異なる被写体からの複合属性が混在する。 本研究では,複数の被験者のアイデンティティを効果的に分離することで,マルチオブジェクトのパーソナライズを可能にする新しいフレームワークであるMuDIを提案する。 本研究の目的は,学習と推論の両方にセグメンテーション(セグメンテーション)の基礎モデルによって生成されたセグメンテーションを,生成プロセスのトレーニングと初期化のためのデータ拡張の一形態として活用することである。 さらに,本手法の多目的パーソナライゼーションにおける性能を評価するための新しい指標を提案する。 実験結果から,図1に示すような非常に類似した被験者であっても,同一性混合を伴わない高品質なパーソナライズ画像が作成可能であることが示された。 特に人的評価において、MuDIは、既存のベースラインに対してアイデンティティを混合せずに複数の被験者をパーソナライズする成功率の2倍を取得し、最強ベースラインに対して70%以上が好ましい。

Text-to-image diffusion models have shown remarkable success in generating personalized subjects based on a few reference images. However, current methods often fail when generating multiple subjects simultaneously, resulting in mixed identities with combined attributes from different subjects. In this work, we present MuDI, a novel framework that enables multi-subject personalization by effectively decoupling identities from multiple subjects. Our main idea is to utilize segmented subjects generated by a foundation model for segmentation (Segment Anything) for both training and inference, as a form of data augmentation for training and initialization for the generation process. Moreover, we further introduce a new metric to better evaluate the performance of our method on multi-subject personalization. Experimental results show that our MuDI can produce high-quality personalized images without identity mixing, even for highly similar subjects as shown in Figure 1. Specifically, in human evaluation, MuDI obtains twice the success rate for personalizing multiple subjects without identity mixing over existing baselines and is preferred over 70% against the strongest baseline.
翻訳日:2024-05-30 00:59:19 公開日:2024-05-28
# CodecNeRF: 高速エンコーディング・デコード・コンパクト・高品質ノベルビュー合成を目指して

CodecNeRF: Toward Fast Encoding and Decoding, Compact, and High-quality Novel-view Synthesis ( http://arxiv.org/abs/2404.04913v2 )

ライセンス: Link先を確認
Gyeongjin Kang, Younggeun Lee, Seungjun Oh, Eunbyung Park, (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、3Dオブジェクトやシーンを効果的に捉え、表現することで大きな成功を収めた。 しかし、いくつかの要因が次世代3Dメディアとしてさらなる増殖を阻害している。 画像やビデオなどの日常的なメディアフォーマットにおいて、ユビキタスな存在を確立するためには、高速エンコーディングとデコード時間、コンパクトモデルサイズ、高品質レンダリングの3つの主要な目的を効果的に果たすソリューションを考案することが不可欠である。 大幅な進歩にもかかわらず、全ての目的に適切に対処する包括的アルゴリズムはまだ完全には実現されていない。 本研究では,新しいエンコーダとデコーダアーキテクチャからなるNeRF表現のためのニューラルコーデックであるCodecNeRFについて述べる。 さらに, パラメータ効率のよいファインタニング手法に着想を得て, 生成したNeRF表現を新しいテストインスタンスに効率よく適応させるファインタニング手法を開発し, 高品質な画像レンダリングとコンパクトなコードサイズを実現した。 The proposed CodecNeRF, a new proposed encoding-decoding-finetuning pipeline for NeRFは、ShapeNetやObjaverseといった広く使われている3Dオブジェクトデータセット上で画像品質を維持し(または改善)しながら、エンコーディング時間の150倍以上と20倍の圧縮性能を達成した。

Neural Radiance Fields (NeRF) have achieved huge success in effectively capturing and representing 3D objects and scenes. However, several factors have impeded its further proliferation as next-generation 3D media. To establish a ubiquitous presence in everyday media formats, such as images and videos, it is imperative to devise a solution that effectively fulfills three key objectives: fast encoding and decoding time, compact model sizes, and high-quality renderings. Despite significant advancements, a comprehensive algorithm that adequately addresses all objectives has yet to be fully realized. In this work, we present CodecNeRF, a neural codec for NeRF representations, consisting of a novel encoder and decoder architecture that can generate a NeRF representation in a single forward pass. Furthermore, inspired by the recent parameter-efficient finetuning approaches, we develop a novel finetuning method to efficiently adapt the generated NeRF representations to a new test instance, leading to high-quality image renderings and compact code sizes. The proposed CodecNeRF, a newly suggested encoding-decoding-finetuning pipeline for NeRF, achieved unprecedented compression performance of more than 150x and 20x reduction in encoding time while maintaining (or improving) the image quality on widely used 3D object datasets, such as ShapeNet and Objaverse.
翻訳日:2024-05-30 00:59:19 公開日:2024-05-28
# Mind-to- Image: Projecting Visual Mental Imagination of the Brain from fMRI

Mind-to-Image: Projecting Visual Mental Imagination of the Brain from fMRI ( http://arxiv.org/abs/2404.05468v5 )

ライセンス: Link先を確認
Hugo Caselles-Dupré, Charles Mellerio, Paul Hérent, Alizée Lopez-Persem, Benoit Béranger, Mathieu Soularue, Pierre Fautrel, Gauthier Vernier, Matthieu Cord, (参考訳) 視覚刺激によって収集されたfMRIデータから被験者が観察した画像の再構成は、広範囲なfMRIデータセットが利用可能となり、画像生成のための生成モデルの進歩により、過去10年間に大きく進歩してきた。 しかし、視覚再建の応用はいまだに限られている。 視覚的想像力の再構築は、障害を持つ個人を支援することから、法廷での証人口座の検証まで、潜在的に革命的な応用によって大きな課題を呈する。 この分野での主なハードルは、視覚画像のためのデータ収集プロトコルの欠如と、対象とするデータセットの欠如である。 伝統的に、fMRI-to-imageは、視覚刺激にさらされた被験者から収集されたデータに依存しており、視覚刺激と視覚刺激の脳活動の違いに基づいて視覚画像を生成する問題を引き起こす。 提案したデータ収集プロトコルとともに、視覚画像に関するかなりのデータセット(約6hのスキャン)を初めてコンパイルした。 次に、fMRI-to-imageモデルの修正版をトレーニングし、メモリと純粋なイマジネーションの2つのモードからイメージを再構築する可能性を示す。 私たちがMind-to-Imageと呼ぶパイプラインは、視覚的なイメージを直接再構築できる技術を作るための一歩です。

The reconstruction of images observed by subjects from fMRI data collected during visual stimuli has made strong progress in the past decade, thanks to the availability of extensive fMRI datasets and advancements in generative models for image generation. However, the application of visual reconstruction has remained limited. Reconstructing visual imagination presents a greater challenge, with potentially revolutionary applications ranging from aiding individuals with disabilities to verifying witness accounts in court. The primary hurdles in this field are the absence of data collection protocols for visual imagery and the lack of datasets on the subject. Traditionally, fMRI-to-image relies on data collected from subjects exposed to visual stimuli, which poses issues for generating visual imagery based on the difference of brain activity between visual stimulation and visual imagery. For the first time, we have compiled a substantial dataset (around 6h of scans) on visual imagery along with a proposed data collection protocol. We then train a modified version of an fMRI-to-image model and demonstrate the feasibility of reconstructing images from two modes of imagination: from memory and from pure imagination. The resulting pipeline we call Mind-to-Image marks a step towards creating a technology that allow direct reconstruction of visual imagery.
翻訳日:2024-05-30 00:49:33 公開日:2024-05-28
# VietMed:医療領域におけるベトナム語の自動音声認識のためのデータセットとベンチマーク

VietMed: A Dataset and Benchmark for Automatic Speech Recognition of Vietnamese in the Medical Domain ( http://arxiv.org/abs/2404.05659v2 )

ライセンス: Link先を確認
Khai Le-Duc, (参考訳) プライバシーの制限により、医療領域で利用可能な音声認識データセットが不足しています。 本研究では,医療領域におけるベトナム語音声認識データセットであるVietMedについて紹介する。 私たちの知る限りでは、VietMedは、合計持続時間、話者数、疾患、記録条件、話者の役割、ユニークな医療用語、アクセントの7つの面で、世界最大である。 VietMedは、ベトナムの公的な音声データセットとしては最大規模である。 さらに,全国のICD-10病群とすべてのアクセントを対象とする医学的ASRデータセットを初めて提示する。 さらに、ベトナムのASR、w2v2-Viet、XLSR-53-Viet向けの最初の大規模事前訓練モデルと、医療用ASRのための最初の大規模微調整モデルをリリースする。 XLSR-53-Vietは、教師なし事前トレーニングの医療データがない場合でも、テストセットにおいて51.8%から29.6%のWER(相対的な40%以上の低下)で最先端のXLSR-53を上回り、医療領域に非常によく一般化する。 すべてのコード、データ、モデルは、https://github.com/leduckhai/MultiMed.comで公開されている。

Due to privacy restrictions, there's a shortage of publicly available speech recognition datasets in the medical domain. In this work, we present VietMed - a Vietnamese speech recognition dataset in the medical domain comprising 16h of labeled medical speech, 1000h of unlabeled medical speech and 1200h of unlabeled general-domain speech. To our best knowledge, VietMed is by far the world's largest public medical speech recognition dataset in 7 aspects: total duration, number of speakers, diseases, recording conditions, speaker roles, unique medical terms and accents. VietMed is also by far the largest public Vietnamese speech dataset in terms of total duration. Additionally, we are the first to present a medical ASR dataset covering all ICD-10 disease groups and all accents within a country. Moreover, we release the first public large-scale pre-trained models for Vietnamese ASR, w2v2-Viet and XLSR-53-Viet, along with the first public large-scale fine-tuned models for medical ASR. Even without any medical data in unsupervised pre-training, our best pre-trained model XLSR-53-Viet generalizes very well to the medical domain by outperforming state-of-the-art XLSR-53, from 51.8% to 29.6% WER on test set (a relative reduction of more than 40%). All code, data and models are made publicly available: https://github.com/leduckhai/MultiMed.
翻訳日:2024-05-30 00:49:33 公開日:2024-05-28
# ストリーム処理フレームワークにおける異常回復の総合ベンチマーク解析

A Comprehensive Benchmarking Analysis of Fault Recovery in Stream Processing Frameworks ( http://arxiv.org/abs/2404.06203v2 )

ライセンス: Link先を確認
Adriano Vogel, Sören Henning, Esteban Perez-Wohlfeil, Otmar Ertl, Rick Rabiser, (参考訳) 現在、いくつかのソフトウェアシステムは、スケーラブルなパフォーマンスを提供し、ほぼリアルタイムで大量のデータを処理するために、ストリーム処理アーキテクチャに依存している。 ストリーム処理フレームワークは、アプリケーションの実行を複数のマシンに分散することで、スケーラブルなコンピューティングを容易にする。 性能は広く研究されているが、ストリーム処理フレームワークが提供する重要な特徴である耐障害性の測定は、更新された総合的なテストベッドでは、まだ適切に測定されていない。 さらに、障害復旧がパフォーマンスに与える影響はほとんど無視されます。 本稿では、Flink、Kafka Streams、Spark Structured Streamingといった最新のオープンソースフレームワークを備えたクラウドネイティブ環境での障害復旧性能、安定性、回復時間に関する包括的な分析を提供する。 私たちのベンチマーク分析は、カオスエンジニアリングにインスパイアされて、障害を注入しています。 以上の結果から,従来の分散ストリーム処理における障害回復研究と比較して,大きな変化が見られた。 特に、結果は、Flinkが最も安定しており、最高の障害回復の1つを持っていることを示している。 さらに、Kafka Streamsは障害後のパフォーマンスの不安定さを示している。 Spark Structured Streamingは、適切なフォールトリカバリパフォーマンスと安定性を示しているが、イベントレイテンシが高い。 私たちの研究は i)データ集約型アプリケーションの効率的かつ信頼性の高い実行に最適なストリーム処理フレームワークを選択することを支援する。 二 研究者が研究方法及びベンチマークの適用及び拡張を支援すること。 3)本番デプロイメントにおける潜在的な問題の特定、防止、支援。

Nowadays, several software systems rely on stream processing architectures to deliver scalable performance and handle large volumes of data in near real-time. Stream processing frameworks facilitate scalable computing by distributing the application's execution across multiple machines. Despite performance being extensively studied, the measurement of fault tolerance-a key feature offered by stream processing frameworks-has still not been measured properly with updated and comprehensive testbeds. Moreover, the impact that fault recovery can have on performance is mostly ignored. This paper provides a comprehensive analysis of fault recovery performance, stability, and recovery time in a cloud-native environment with modern open-source frameworks, namely Flink, Kafka Streams, and Spark Structured Streaming. Our benchmarking analysis is inspired by chaos engineering to inject failures. Generally, our results indicate that much has changed compared to previous studies on fault recovery in distributed stream processing. In particular, the results indicate that Flink is the most stable and has one of the best fault recovery. Moreover, Kafka Streams shows performance instabilities after failures, which is due to its current rebalancing strategy that can be suboptimal in terms of load balancing. Spark Structured Streaming shows suitable fault recovery performance and stability, but with higher event latency. Our study intends to (i) help industry practitioners in choosing the most suitable stream processing framework for efficient and reliable executions of data-intensive applications; (ii) support researchers in applying and extending our research method as well as our benchmark; (iii) identify, prevent, and assist in solving potential issues in production deployments.
翻訳日:2024-05-30 00:49:33 公開日:2024-05-28
# 離散力学系の局所的相互作用を学習する:データ効率・拡張性予測に向けて

Learning Locally Interacting Discrete Dynamical Systems: Towards Data-Efficient and Scalable Prediction ( http://arxiv.org/abs/2404.06460v2 )

ライセンス: Link先を確認
Beomseok Kang, Harshit Kumar, Minah Lee, Biswadeep Chakraborty, Saibal Mukhopadhyay, (参考訳) 局所的に相互作用するダイナミックなシステム、例えば流行の広がり、群衆による噂の伝播、森林火災などは、局所的、比較的単純で、しばしば動的要素間の確率的な相互作用に由来する複雑なグローバルなダイナミクスを示す。 彼らの時間的進化は、しばしば有限個の離散状態間の遷移によって引き起こされる。 深層学習による予測モデリングの進歩にもかかわらず、多くの要素間の相互作用は予測モデリングの特定の領域として研究されることはめったにない。 本稿では,周辺細胞間の時間的情報を置換不変な方法で関連付けることにより,未知の局所状態遷移規則を効果的に発見するために,注意的反復神経セルオートマタ(AR-NCA)を提案する。 AR-NCAは、様々なシステム構成(例えば状態の空間分布)において優れた一般化性を示し、確率的相互作用が存在する場合であっても、極端にデータ制限されたシナリオにおいてデータ効率とロバスト性を示し、空間次元に依存しない予測によるスケーラビリティを示す。

Locally interacting dynamical systems, such as epidemic spread, rumor propagation through crowd, and forest fire, exhibit complex global dynamics originated from local, relatively simple, and often stochastic interactions between dynamic elements. Their temporal evolution is often driven by transitions between a finite number of discrete states. Despite significant advancements in predictive modeling through deep learning, such interactions among many elements have rarely explored as a specific domain for predictive modeling. We present Attentive Recurrent Neural Cellular Automata (AR-NCA), to effectively discover unknown local state transition rules by associating the temporal information between neighboring cells in a permutation-invariant manner. AR-NCA exhibits the superior generalizability across various system configurations (i.e., spatial distribution of states), data efficiency and robustness in extremely data-limited scenarios even in the presence of stochastic interactions, and scalability through spatial dimension-independent prediction.
翻訳日:2024-05-30 00:49:33 公開日:2024-05-28
# 経済性の評価: チップ設計符号化支援におけるドメイン適応型大規模言語モデルの総所有コストと最先端カウンタの比較分析

Assessing Economic Viability: A Comparative Analysis of Total Cost of Ownership for Domain-Adapted Large Language Models versus State-of-the-art Counterparts in Chip Design Coding Assistance ( http://arxiv.org/abs/2404.08850v2 )

ライセンス: Link先を確認
Amit Sharma, Teodor-Dumitru Ene, Kishor Kunal, Mingjie Liu, Zafar Hasan, Haoxing Ren, (参考訳) 本稿では,チップ設計におけるコーディング支援に関するタスクを中心に,ドメイン適応型大規模言語モデル (LLM) と最先端LLM (SoTA) の総所有コスト(TCO) と性能の比較分析を行った。 我々は,Claude 3 Opus と ChatGPT-4 Turbo の2つの主要な LLM に対して,ドメイン適応型 LLM である ChipNeMo の TCO と性能指標を比較し,チップ設計符号生成の有効性を評価する。 本研究は, モデルの精度, 訓練方法, 運用費の詳細な評価を通じて, 利害関係者に対して, 特定のニーズに対して最も経済的に実行可能な, 性能効率の良いソリューションを選択するための重要な情報を提供することを目的とする。 この結果から,ChipNeMoのようなドメイン適応モデルを採用することで,汎用モデルに比べて大幅なコスト削減による性能向上を図った。 特に、ドメイン適応型LCMがTCOを約90%-95%削減する可能性を明らかにし、デプロイメントの規模が拡大するにつれて、コストのアドバンテージがますます明らかになる。 デプロイメントの拡大に伴い、ChipNeMoのコストメリットはより顕著になり、ドメイン適応型LLMは、LLMがサポートしているコーディングニーズの高い組織にとって魅力的な選択肢となる。

This paper presents a comparative analysis of total cost of ownership (TCO) and performance between domain-adapted large language models (LLM) and state-of-the-art (SoTA) LLMs , with a particular emphasis on tasks related to coding assistance for chip design. We examine the TCO and performance metrics of a domain-adaptive LLM, ChipNeMo, against two leading LLMs, Claude 3 Opus and ChatGPT-4 Turbo, to assess their efficacy in chip design coding generation. Through a detailed evaluation of the accuracy of the model, training methodologies, and operational expenditures, this study aims to provide stakeholders with critical information to select the most economically viable and performance-efficient solutions for their specific needs. Our results underscore the benefits of employing domain-adapted models, such as ChipNeMo, that demonstrate improved performance at significantly reduced costs compared to their general-purpose counterparts. In particular, we reveal the potential of domain-adapted LLMs to decrease TCO by approximately 90%-95%, with the cost advantages becoming increasingly evident as the deployment scale expands. With expansion of deployment, the cost benefits of ChipNeMo become more pronounced, making domain-adaptive LLMs an attractive option for organizations with substantial coding needs supported by LLMs
翻訳日:2024-05-30 00:49:33 公開日:2024-05-28
# スポットライトのOV:どのように反射するか?

OOVs in the Spotlight: How to Inflect them? ( http://arxiv.org/abs/2404.08974v2 )

ライセンス: Link先を確認
Tomáš Sourada, Jana Straková, Rudolf Rosa, (参考訳) 我々は、通常、最先端のシステムでは効果が低い、oo-of-vocabulary(OOV)条件における形態的インフレクションに焦点を当てる。 LSTMとTransformerに基づく2つのシーケンス・ツー・シーケンス・モデル(seq2seq)を逆行モデルとして開発した。 OOVの条件下での試験では,モルフォロジーに富むチェコ語の名詞の大規模なデータセットを自動的に抽出し,レムマと解離するデータを分割し,さらに実世界におけるOOVのネオロジズムデータセットを手動で注釈付けした。 標準的なOOV条件では、TransformerはLSTM、逆行モデル、SIGMORPHONベースラインとのアンサンブル性能の向上とともに、最高の結果を得る。 実世界のネオロジズムのOOVデータセットでは、逆行性モデルはすべてのニューラルモデルより優れています。 最後に, SIGMORPHON 2022のタスクデータから, 大規模データ条件下でのOOV評価(機能重複)において, 16言語中9言語について, 最新の結果を得た。 我々はチェコのOOVインフレクションデータセットをリリースし、OOV条件の厳密な評価を行う。 さらに,Seq2seqモデルを用いたインフレクションシステムをPythonライブラリとしてリリースする。

We focus on morphological inflection in out-of-vocabulary (OOV) conditions, an under-researched subtask in which state-of-the-art systems usually are less effective. We developed three systems: a retrograde model and two sequence-to-sequence (seq2seq) models based on LSTM and Transformer. For testing in OOV conditions, we automatically extracted a large dataset of nouns in the morphologically rich Czech language, with lemma-disjoint data splits, and we further manually annotated a real-world OOV dataset of neologisms. In the standard OOV conditions, Transformer achieves the best results, with increasing performance in ensemble with LSTM, the retrograde model and SIGMORPHON baselines. On the real-world OOV dataset of neologisms, the retrograde model outperforms all neural models. Finally, our seq2seq models achieve state-of-the-art results in 9 out of 16 languages from SIGMORPHON 2022 shared task data in the OOV evaluation (feature overlap) in the large data condition. We release the Czech OOV Inflection Dataset for rigorous evaluation in OOV conditions. Further, we release the inflection system with the seq2seq models as a ready-to-use Python library.
翻訳日:2024-05-30 00:49:33 公開日:2024-05-28
# ニューラルネット量子状態の最適化とクロムダイマー試験

Improved Optimization for the Neural-network Quantum States and Tests on the Chromium Dimer ( http://arxiv.org/abs/2404.09280v3 )

ライセンス: Link先を確認
Xiang Li, Jia-Cheng Huang, Guang-Ze Zhang, Hao-En Li, Zhu-Ping Shen, Chen Zhao, Jun Li, Han-Shi Hu, (参考訳) ニューラル・ネットワーク量子状態(NQS)の出現は、かなり先進的な波動関数アンザッツの研究をもたらし、軌道空間の変動であるモンテカルロ探査(VMC)の復活を引き起こした。 本研究は, 適応学習率アルゴリズム, 制約付き最適化, ブロック最適化という, NQSを用いたVMC最適化の計算要求を削減するアルゴリズムを3つ導入した。 我々は、cc-pVDZ基底集合内の複素多重参照結合の$\rm H_2O$および$\rm N_2$の洗練されたアルゴリズムを評価し、Ahlrichs SV基底集合における強相関クロム二量(\rm Cr_2$)の基底状態エネルギーを計算する。 この結果は,CPUコストが比較的低い場合に,結合クラスタ理論よりも高い精度が得られる。 この研究は、これらの戦略を用いて最適化効率とロバスト性を高める方法を示し、大規模制限ボルツマンマシン(RBM)ベースのNQSをより効率的に最適化するための新しい経路を開き、NQSの実用的な量子化学応用の大幅な進歩を示す。

The advent of Neural-network Quantum States (NQS) has significantly advanced wave function ansatz research, sparking a resurgence in orbital space variational Monte Carlo (VMC) exploration. This work introduces three algorithmic enhancements to reduce computational demands of VMC optimization using NQS: an adaptive learning rate algorithm, constrained optimization, and block optimization. We evaluate the refined algorithm on complex multireference bond stretches of $\rm H_2O$ and $\rm N_2$ within the cc-pVDZ basis set and calculate the ground-state energy of the strongly correlated chromium dimer ($\rm Cr_2$) in the Ahlrichs SV basis set. Our results achieve superior accuracy compared to coupled cluster theory at a relatively modest CPU cost. This work demonstrates how to enhance optimization efficiency and robustness using these strategies, opening a new path to optimize large-scale Restricted Boltzmann Machine (RBM)-based NQS more effectively and marking a substantial advancement in NQS's practical quantum chemistry applications.
翻訳日:2024-05-30 00:49:33 公開日:2024-05-28
# トークンレベルの直接参照最適化

Token-level Direct Preference Optimization ( http://arxiv.org/abs/2404.11999v2 )

ライセンス: Link先を確認
Yongcheng Zeng, Guoqing Liu, Weiyu Ma, Ning Yang, Haifeng Zhang, Jun Wang, (参考訳) 微調整された事前訓練された大規模言語モデル(LLM)は、それらを人間の価値観や意図と整合させるのに不可欠である。 このプロセスは、モデルが生成した全回答の評価に焦点をあてて、ペア比較や基準LLMに対するKL分散といった手法を利用することが多い。 しかしながら、これらの応答の生成は、シーケンシャルで自己回帰的な方法でトークンレベルで行われる。 本稿では,トークンレベルでポリシーを最適化することにより,LLMと人間の嗜好を一致させる新しいアプローチである,トークンレベルの直接選好最適化(TDPO)を提案する。 分散効率の課題に直面している従来の方法とは異なり、TDPOはトークンごとに前方KL分散制約を導入し、アライメントと多様性を改善している。 トークンベースの報酬システムのためのBradley-Terryモデルを利用することで、TDPOは、明示的な報酬モデリングを必要とせずに単純さを保ちながら、KL分散の規制を強化する。 テキストタスク間の実験結果は、TDPOが生成多様性との整合性に優れた性能を示す。 特に、TDPOによる微調整は、制御された感情生成とシングルターン対話データセットにおいてDPOよりもバランスが良く、DPOおよびPPOベースのRLHF手法と比較して、生成した応答の品質が著しく向上する。 我々のコードはhttps://github.com/Vance0124/Token-level-Direct-Preference-Optimizationでオープンソース化されています。

Fine-tuning pre-trained Large Language Models (LLMs) is essential to align them with human values and intentions. This process often utilizes methods like pairwise comparisons and KL divergence against a reference LLM, focusing on the evaluation of full answers generated by the models. However, the generation of these responses occurs in a token level, following a sequential, auto-regressive fashion. In this paper, we introduce Token-level Direct Preference Optimization (TDPO), a novel approach to align LLMs with human preferences by optimizing policy at the token level. Unlike previous methods, which face challenges in divergence efficiency, TDPO incorporates forward KL divergence constraints for each token, improving alignment and diversity. Utilizing the Bradley-Terry model for a token-based reward system, TDPO enhances the regulation of KL divergence, while preserving simplicity without the need for explicit reward modeling. Experimental results across various text tasks demonstrate TDPO's superior performance in balancing alignment with generation diversity. Notably, fine-tuning with TDPO strikes a better balance than DPO in the controlled sentiment generation and single-turn dialogue datasets, and significantly improves the quality of generated responses compared to both DPO and PPO-based RLHF methods. Our code is open-sourced at https://github.com/Vance0124/Token-level-Direct-Preference-Optimization.
翻訳日:2024-05-30 00:49:33 公開日:2024-05-28
# X-Light: 変圧器上の変圧器をメタマルチエージェント強化学習器として用いた都市横断信号制御

X-Light: Cross-City Traffic Signal Control Using Transformer on Transformer as Meta Multi-Agent Reinforcement Learner ( http://arxiv.org/abs/2404.12090v2 )

ライセンス: Link先を確認
Haoyuan Jiang, Ziyue Li, Hua Wei, Xuantang Xiong, Jingqing Ruan, Jiaming Lu, Hangyu Mao, Rui Zhao, (参考訳) 交通光制御の有効性は、複数の信号機間の協調により、現在の強化学習に基づくアプローチによって著しく改善されている。 しかし、持続的な問題として、多様な都市にまたがる顕著な転送性を持つマルチエージェント交通信号制御アルゴリズムの取得方法がある。 本稿では,都市間メタマルチエージェント交通信号制御のためのトランスフォーマー(TonT)モデルを提案する。X-Light:我々はマルコフ決定プロセスの完全なトラジェクトリを入力し,ローワートランスフォーマーは,都市内における目標交差点とその周辺地域の状態,行動,報酬を集約し,アッパートランスフォーマーは,各都市間の一般的な決定トラジェクトリを学習する。 この二重レベルアプローチはモデルの堅牢な一般化と伝達可能性を促進する。 特に、目に見えないシナリオへの直接転送では、平均で+7.91%、場合によっては+16.3%のベースラインメソッドを超越し、最良の結果が得られる。

The effectiveness of traffic light control has been significantly improved by current reinforcement learning-based approaches via better cooperation among multiple traffic lights. However, a persisting issue remains: how to obtain a multi-agent traffic signal control algorithm with remarkable transferability across diverse cities? In this paper, we propose a Transformer on Transformer (TonT) model for cross-city meta multi-agent traffic signal control, named as X-Light: We input the full Markov Decision Process trajectories, and the Lower Transformer aggregates the states, actions, rewards among the target intersection and its neighbors within a city, and the Upper Transformer learns the general decision trajectories across different cities. This dual-level approach bolsters the model's robust generalization and transferability. Notably, when directly transferring to unseen scenarios, ours surpasses all baseline methods with +7.91% on average, and even +16.3% in some cases, yielding the best results.
翻訳日:2024-05-30 00:49:33 公開日:2024-05-28
# MolCRAFT:連続パラメータ空間における構造に基づく医薬品設計

MolCRAFT: Structure-Based Drug Design in Continuous Parameter Space ( http://arxiv.org/abs/2404.12141v4 )

ライセンス: Link先を確認
Yanru Qu, Keyue Qiu, Yuxuan Song, Jingjing Gong, Jiawei Han, Mingyue Zheng, Hao Zhou, Wei-Ying Ma, (参考訳) 近年, 構造に基づく医薬品デザイン(SBDD)の創成モデルが有望な成果を上げている。 既存の研究は主に、高い結合親和性を持つ分子を生成する方法に焦点を当てており、生成された3Dポーズに対する実現可能性の前提条件を無視し、偽陽性をもたらす。 我々は,モード崩壊やハイブリッド連続離散空間を含む自己回帰的手法を適用し,SBDDに拡散する際の不整合問題の要因を徹底的に研究する。 本稿では,連続パラメータ空間で動作する最初のSBDDモデルであるMolCRAFTと,新しいノイズ低減サンプリング戦略を紹介する。 実験により,本モデルはより安定な3次元構造との結合親和性において常に優れた性能を示し,原子間相互作用を正確にモデル化する能力を示している。 我々の知る限りでは、MollCRAFTは、基準レベルのVina Scores (-6.59 kcal/mol) を同等の分子サイズで達成し、他の強いベースラインよりも広いマージン (-0.84 kcal/mol) で優れている。 コードはhttps://github.com/AlgoMole/MolCRAFTで入手できる。

Generative models for structure-based drug design (SBDD) have shown promising results in recent years. Existing works mainly focus on how to generate molecules with higher binding affinity, ignoring the feasibility prerequisites for generated 3D poses and resulting in false positives. We conduct thorough studies on key factors of ill-conformational problems when applying autoregressive methods and diffusion to SBDD, including mode collapse and hybrid continuous-discrete space. In this paper, we introduce MolCRAFT, the first SBDD model that operates in the continuous parameter space, together with a novel noise reduced sampling strategy. Empirical results show that our model consistently achieves superior performance in binding affinity with more stable 3D structure, demonstrating our ability to accurately model interatomic interactions. To our best knowledge, MolCRAFT is the first to achieve reference-level Vina Scores (-6.59 kcal/mol) with comparable molecular size, outperforming other strong baselines by a wide margin (-0.84 kcal/mol). Code is available at https://github.com/AlgoMole/MolCRAFT.
翻訳日:2024-05-30 00:49:33 公開日:2024-05-28
# zk-SNARKによるプライバシー保護UPB決定プロセス検証

Privacy-Preserving UCB Decision Process Verification via zk-SNARKs ( http://arxiv.org/abs/2404.12186v2 )

ライセンス: Link先を確認
Xikun Jiang, He Lyu, Chenhao Ying, Yibin Xu, Boris Düdder, Yuan Luo, (参考訳) 機械学習の普及により、データのプライバシとアルゴリズムパラメータの保護と、マシンラーニングの検証可能性の確保のバランスを取る方法は、常に課題でした。 本研究では、強化学習とデータプライバシの交わりについて検討し、特に、Multi-Armed Bandit(MAB)問題とアッパー信頼境界(UCB)アルゴリズムに対処する。 我々は、Zero-Knowledge Succinct Non-Interactive Argument of Knowledge (zk-SNARKs) を用いて、UCBを強化する革新的なアルゴリズムzkUCBを紹介する。 zkUCBは、トレーニングデータとアルゴリズムパラメータの機密性を保護し、透明な UCB 決定を保証するために慎重に設計されている。 実験ではzkUCBの優れた性能が強調され、決定過程における情報エントロピーの低減に寄与する。 zkUCBの証明サイズと検証時間はzkUCBの実行ステップと線形にスケールする。 これはzkUCBがデータセキュリティと運用効率のバランスを保っていることを示している。 このアプローチは、複雑な意思決定プロセスにおけるデータのプライバシ強化に関する継続的な議論に大きく貢献し、プライバシに敏感なアプリケーションのための有望なソリューションを提供する。

With the increasingly widespread application of machine learning, how to strike a balance between protecting the privacy of data and algorithm parameters and ensuring the verifiability of machine learning has always been a challenge. This study explores the intersection of reinforcement learning and data privacy, specifically addressing the Multi-Armed Bandit (MAB) problem with the Upper Confidence Bound (UCB) algorithm. We introduce zkUCB, an innovative algorithm that employs the Zero-Knowledge Succinct Non-Interactive Argument of Knowledge (zk-SNARKs) to enhance UCB. zkUCB is carefully designed to safeguard the confidentiality of training data and algorithmic parameters, ensuring transparent UCB decision-making. Experiments highlight zkUCB's superior performance, attributing its enhanced reward to judicious quantization bit usage that reduces information entropy in the decision-making process. zkUCB's proof size and verification time scale linearly with the execution steps of zkUCB. This showcases zkUCB's adept balance between data security and operational efficiency. This approach contributes significantly to the ongoing discourse on reinforcing data privacy in complex decision-making processes, offering a promising solution for privacy-sensitive applications.
翻訳日:2024-05-30 00:49:33 公開日:2024-05-28
# 位置符号化のない因果変換器の長さ一般化

Length Generalization of Causal Transformers without Position Encoding ( http://arxiv.org/abs/2404.12224v2 )

ライセンス: Link先を確認
Jie Wang, Tao Ji, Yuanbin Wu, Hang Yan, Tao Gui, Qi Zhang, Xuanjing Huang, Xiaoling Wang, (参考訳) より長い文への一般化は、最近のTransformerベースの言語モデルにとって重要である。 明示的な位置特徴を操作するアルゴリズムに加えて、位置エンコーディング(NoPE)のないトランスフォーマーの成功は、この課題を克服する新しい方法を提供する。 本稿では,NoPEの長さ一般化特性について検討する。 NoPEは、一般的に使われる明示的な位置エンコーディングよりも長いシーケンスに拡張できるが、コンテキスト長が制限されている。 我々は,NoPEの一般化の失敗と注意分布の乱れとの関係を同定する。 本研究では,NPEのコンテキストサイズを大幅に拡大する,アテンションヘッドの最適温度ハイパーパラメータを求めるためのパラメータ効率チューニングを提案する。 ロングシーケンス言語モデリング、合成パスキー検索タスク、実世界のロングコンテキストタスクの実験は、NoPEが最先端長一般化アルゴリズムで競合性能を達成可能であることを示している。 ソースコードは公開されています

Generalizing to longer sentences is important for recent Transformer-based language models. Besides algorithms manipulating explicit position features, the success of Transformers without position encodings (NoPE) provides a new way to overcome the challenge. In this paper, we study the length generalization property of NoPE. We find that although NoPE can extend to longer sequences than the commonly used explicit position encodings, it still has a limited context length. We identify a connection between the failure of NoPE's generalization and the distraction of attention distributions. We propose a parameter-efficient tuning for searching attention heads' best temperature hyper-parameters, which substantially expands NoPE's context size. Experiments on long sequence language modeling, the synthetic passkey retrieval task and real-world long context tasks show that NoPE can achieve competitive performances with state-of-the-art length generalization algorithms. The source code is publicly accessible
翻訳日:2024-05-30 00:49:33 公開日:2024-05-28
# ReZero: 後方ビューとエンチアバッファリアナライズによるMCTSベースのアルゴリズムの強化

ReZero: Boosting MCTS-based Algorithms by Backward-view and Entire-buffer Reanalyze ( http://arxiv.org/abs/2404.16364v3 )

ライセンス: Link先を確認
Chunyu Xuan, Yazhe Niu, Yuan Pu, Shuai Hu, Yu Liu, Jing Yang, (参考訳) モンテカルロ木探索(MCTS)に基づくアルゴリズム、例えばMuZeroとその派生は、様々な意思決定領域で広く成功している。 これらのアルゴリズムは、ウォールクロック時間の大幅な消費を犠牲にしながらも、古いデータからサンプルの効率を高めるために再分析プロセスを採用している。 この問題に対処するため,MCTSアルゴリズムのツリー探索操作を高速化するReZeroという手法を提案する。 具体的には、一方の腕のバンディットモデルからインスピレーションを得た後向きの再利用手法を用いてトレーニングサンプルを再解析し、予め特定の子ノードの値推定を行う。 この設計にさらに適応するため、ミニバッチを頻繁に再解析するのではなく、バッファ全体を定期的に再解析する。 これら2つの設計の相乗効果は、検索コストを大幅に削減し、一方でデータ収集と再解析の両方を簡素化し、性能を保証または改善する。 アタリ環境での実験とボードゲームにより、ReZeroは高いサンプル効率を維持しながらトレーニング速度を大幅に改善することを示した。 コードは、https://github.com/opendilab/LightZeroのLightZeroベンチマークの一部として利用できる。

Monte Carlo Tree Search (MCTS)-based algorithms, such as MuZero and its derivatives, have achieved widespread success in various decision-making domains. These algorithms employ the reanalyze process to enhance sample efficiency from stale data, albeit at the expense of significant wall-clock time consumption. To address this issue, we propose a general approach named ReZero to boost tree search operations for MCTS-based algorithms. Specifically, drawing inspiration from the one-armed bandit model, we reanalyze training samples through a backward-view reuse technique which obtains the value estimation of a certain child node in advance. To further adapt to this design, we periodically reanalyze the entire buffer instead of frequently reanalyzing the mini-batch. The synergy of these two designs can significantly reduce the search cost and meanwhile guarantee or even improve performance, simplifying both data collecting and reanalyzing. Experiments conducted on Atari environments and board games demonstrate that ReZero substantially improves training speed while maintaining high sample efficiency. The code is available as part of the LightZero benchmark at https://github.com/opendilab/LightZero.
翻訳日:2024-05-30 00:49:33 公開日:2024-05-28
# 自動運転車の安全性の見直し

Redefining Safety for Autonomous Vehicles ( http://arxiv.org/abs/2404.16768v3 )

ライセンス: Link先を確認
Philip Koopman, William Widen, (参考訳) コンピュータベースのシステムの安全性に関する既存の定義と関連する概念的枠組みは、自動運転車の展開から現実の体験に照らして再考されるべきである。 業界安全基準で現在使用されている用語は、特定されたハザードからのリスクの軽減を強調し、人間の監督された車両操作に基づく仮定を実行している。 人間の運転者なしでの運転は、特にオープンワールド環境での運転、運用制限を自己強化する要件、アドホックな社会技術システムへの参加、法的および倫理的制約の両方に準拠する要件により、安全上の問題の範囲を劇的に拡大する。 既存の標準と用語は、これらの新しい課題に部分的に対処するだけである。 我々は、これらの新たな安全課題に対処するための安全なアプローチを進化させる出発点として、これらの追加考慮を含むコアシステム安全概念の更新定義を提案する。 これらの結果は、他の自律システムアプリケーションに対するフレーミング安全用語を通知する可能性がある。

Existing definitions and associated conceptual frameworks for computer-based system safety should be revisited in light of real-world experiences from deploying autonomous vehicles. Current terminology used by industry safety standards emphasizes mitigation of risk from specifically identified hazards, and carries assumptions based on human-supervised vehicle operation. Operation without a human driver dramatically increases the scope of safety concerns, especially due to operation in an open world environment, a requirement to self-enforce operational limits, participation in an ad hoc sociotechnical system of systems, and a requirement to conform to both legal and ethical constraints. Existing standards and terminology only partially address these new challenges. We propose updated definitions for core system safety concepts that encompass these additional considerations as a starting point for evolving safe-ty approaches to address these additional safety challenges. These results might additionally inform framing safety terminology for other autonomous system applications.
翻訳日:2024-05-30 00:39:49 公開日:2024-05-28
# ファースト・ツー・スパイク符号化を用いた確率スパイクニューラルネットワーク

Stochastic Spiking Neural Networks with First-to-Spike Coding ( http://arxiv.org/abs/2404.17719v2 )

ライセンス: Link先を確認
Yi Jiang, Sen Lu, Abhronil Sengupta, (参考訳) ニューラルネットワークの第3世代として認識されているスパイキングニューラルネットワーク(SNN)は、特にニューロモルフィックハードウェアに実装された場合、その生物学的楽観性とエネルギー効率で知られている。 しかし、SNNの既存の研究の大部分は、情報統合の長い時間による計算上のオーバーヘッドを生じさせ、脳の確率的推論能力と時間的ダイナミクスを完全に活用できない決定論的ニューロンに集中している。 本研究では,SNNアーキテクチャにおける新しい計算手法と情報符号化手法の融合について検討し,確率的スパイクニューロンモデルと時間的符号化技術を統合する。 他の決定論的SNNとの広範なベンチマークとレートベースコーディングを通じて、我々は、精度、推論遅延、スパイク空間性、エネルギー消費、ロバスト性の観点から、我々の提案のトレードオフを調査した。 我々の研究は、VGGアーキテクチャやMNISTを超えるデータセットにテンポラリエンコードすることで、確率的SNNの直接トレーニングアプローチのスケーラビリティを初めて拡張したものです。

Spiking Neural Networks (SNNs), recognized as the third generation of neural networks, are known for their bio-plausibility and energy efficiency, especially when implemented on neuromorphic hardware. However, the majority of existing studies on SNNs have concentrated on deterministic neurons with rate coding, a method that incurs substantial computational overhead due to lengthy information integration times and fails to fully harness the brain's probabilistic inference capabilities and temporal dynamics. In this work, we explore the merger of novel computing and information encoding schemes in SNN architectures where we integrate stochastic spiking neuron models with temporal coding techniques. Through extensive benchmarking with other deterministic SNNs and rate-based coding, we investigate the tradeoffs of our proposal in terms of accuracy, inference latency, spiking sparsity, energy consumption, and robustness. Our work is the first to extend the scalability of direct training approaches of stochastic SNNs with temporal encoding to VGG architectures and beyond-MNIST datasets.
翻訳日:2024-05-30 00:39:49 公開日:2024-05-28
# 高調波伝達学習とモダリティアライメントを用いた効率的なリモートセンシング

Efficient Remote Sensing with Harmonized Transfer Learning and Modality Alignment ( http://arxiv.org/abs/2404.18253v5 )

ライセンス: Link先を確認
Tengjun Huang, (参考訳) Visual and Language Pretraining (VLP)の台頭に伴い、多くのダウンストリームタスクが事前トレーニングのパラダイムを採用しており、さらに微調整も行われている。 このパラダイムは、様々なマルチモーダルな下流タスクにおいてポテンシャルを示してきたが、リモートセンシング領域における実装はいくつかの障害に直面している。 具体的には、同じモダリティの埋め込みを一緒にクラスタ化する傾向は、効率的な移動学習を妨げる。 この問題に対処するために,下流タスクに対するマルチモーダル・トランスファー学習の目的を統一的な視点から検討し,3つの異なる目的に基づいて最適化プロセスを再考する。 本研究では,タスク制約,モダリティアライメント,単一モダリティアライメントを同時に満足する手法であるHarMA(Harmonized Transfer Learning and Modality Alignment)を提案する。 注目すべきは、トレーニングのための外部データを必要としないHarMAは、リモートセンシングの分野で人気の高い2つのマルチモーダル検索タスクにおいて、最先端のパフォーマンスを達成することである。 実験の結果,HarMAは最小限の調整可能なパラメータしか持たない完全微調整モデルに対して,競争力や性能に優れることがわかった。 その単純さから、HarMAは既存のほとんどすべてのマルチモーダル事前学習モデルに統合できる。 本手法により,大規模モデルの幅広い下流タスクへの効率的な適用が促進され,資源消費を大幅に削減できることを期待する。 コードはhttps://github.com/seekerhuang/HarMA.comで入手できる。

With the rise of Visual and Language Pretraining (VLP), an increasing number of downstream tasks are adopting the paradigm of pretraining followed by fine-tuning. Although this paradigm has demonstrated potential in various multimodal downstream tasks, its implementation in the remote sensing domain encounters some obstacles. Specifically, the tendency for same-modality embeddings to cluster together impedes efficient transfer learning. To tackle this issue, we review the aim of multimodal transfer learning for downstream tasks from a unified perspective, and rethink the optimization process based on three distinct objectives. We propose "Harmonized Transfer Learning and Modality Alignment (HarMA)", a method that simultaneously satisfies task constraints, modality alignment, and single-modality uniform alignment, while minimizing training overhead through parameter-efficient fine-tuning. Remarkably, without the need for external data for training, HarMA achieves state-of-the-art performance in two popular multimodal retrieval tasks in the field of remote sensing. Our experiments reveal that HarMA achieves competitive and even superior performance to fully fine-tuned models with only minimal adjustable parameters. Due to its simplicity, HarMA can be integrated into almost all existing multimodal pretraining models. We hope this method can facilitate the efficient application of large models to a wide range of downstream tasks while significantly reducing the resource consumption. Code is available at https://github.com/seekerhuang/HarMA.
翻訳日:2024-05-30 00:39:49 公開日:2024-05-28
# オフラインライセンスのためのファームウェアに基づくAIチップ輸出制御の短期実施

Near-Term Enforcement of AI Chip Export Controls Using A Firmware-Based Design for Offline Licensing ( http://arxiv.org/abs/2404.18308v2 )

ライセンス: Link先を確認
James Petrie, (参考訳) オフラインライセンスは、潜在的に危険なフロンティアAIモデルの非規制トレーニングを防ぐために使用できる、計算ガバナンスのメカニズムである。 このメカニズムは、規制当局から未使用のライセンスを持っていない限り、AIチップを無効にすることで機能する。 本報告では,ファームウェア更新を通じて配信可能なオフラインライセンスの最小バージョンの設計について述べる。 既存のAIチップは、ファームウェアの検証、ファームウェアのロールバック保護、不揮発性メモリの安全性といった(比較的一般的な)ハードウェアセキュリティ機能があれば、1年以内にオフラインライセンスをサポートする可能性がある。 公開資料によると、NVIDIAのH100 AIチップには、これらのセキュリティ機能がすでに備わっている。 追加のハードウェア修正がなければ、物理的なハードウェア攻撃の影響を受けやすい。 しかし、これらの攻撃は高価な機器を必要とする可能性があり、何千ものAIチップに確実に適用することは困難である。 ファームウェアベースのオフラインライセンス設計は、ハードウェアベースのソリューションと同じ法的要件とライセンス承認メカニズムを共有している。 ファームウェアベースのソリューションの実装は、将来的にはよりセキュアなハードウェアベースのソリューションの最終的な展開を加速する可能性がある。 AIチップメーカーにとって、このセキュリティメカニズムを実装することで、輸出制限によって禁止されるであろう顧客にチップを販売できるようになるかもしれない。 政府にとって、今後数年間で、安全でないアクターや悪意のないアクターがフロンティアAIモデルをトレーニングするのを防ぐことが重要である。 この初期分析に基づいて、ファームウェアベースのオフラインライセンスは、緊急のセキュリティと貿易の問題を部分的に解決し、ハードウェアのセキュリティに共通する機能を持つAIチップに対して技術的に実現可能である。

Offline Licensing is a mechanism for compute governance that could be used to prevent unregulated training of potentially dangerous frontier AI models. The mechanism works by disabling AI chips unless they have an unused license from a regulator. In this report, we present a design for a minimal version of Offline Licensing that could be delivered via a firmware update. Existing AI chips could potentially support Offline Licensing within a year if they have the following (relatively common) hardware security features: firmware verification, firmware rollback protection, and secure non-volatile memory. Public documentation suggests that NVIDIA's H100 AI chip already has these security features. Without additional hardware modifications, the system is susceptible to physical hardware attacks. However, these attacks might require expensive equipment and could be difficult to reliably apply to thousands of AI chips. A firmware-based Offline Licensing design shares the same legal requirements and license approval mechanism as a hardware-based solution. Implementing a firmware-based solution now could accelerate the eventual deployment of a more secure hardware-based solution in the future. For AI chip manufacturers, implementing this security mechanism might allow chips to be sold to customers that would otherwise be prohibited by export restrictions. For governments, it may be important to be able to prevent unsafe or malicious actors from training frontier AI models in the next few years. Based on this initial analysis, firmware-based Offline Licensing could partially solve urgent security and trade problems and is technically feasible for AI chips that have common hardware security features.
翻訳日:2024-05-30 00:39:49 公開日:2024-05-28
# QOSST: 連続可変量子キー分散実験のための高モジュールオープンソースプラットフォーム

QOSST: A Highly-Modular Open Source Platform for Experimental Continuous-Variable Quantum Key Distribution ( http://arxiv.org/abs/2404.18637v3 )

ライセンス: Link先を確認
Yoann Piétri, Matteo Schiavon, Valentina Marulanda Acosta, Baptiste Gouraud, Luis Trigo Vidarte, Philippe Grangier, Amine Rhouni, Eleni Diamanti, (参考訳) 量子鍵分布(Quantum Key Distribution, QKD)は、量子物理学の法則に根ざした情報理論セキュリティを持つ2つのリモートパーティ間の秘密鍵交換を可能にする。 光のコヒーレントな状態の2次成分の値などの連続変数(CV)における鍵情報の符号化は、標準的な光通信システムにはるかに近い実装をもたらすが、これは低信号対雑音比で操作するのに必要とされるデジタル信号処理技術において、かなり複雑である。 本研究では,CV-QKD実験の参入障壁を小さくし,ハードウェア非依存で,複数の構成で使用可能な,高度にモジュール化されたオープンソースソフトウェアを提供することにより,その難しさを解消したい。 我々は、局所的に発生する局所発振器、周波数多重化パイロット、RF-ヘテロダイン検出による実験装置を用いて、QOSSTと呼ばれるこのソフトウェアをベンチマークし、漸近限界における大都市圏距離におけるMbit/sのオーダーの最先端秘密鍵レートを得た。 我々は,QOSSTがCV-QKDのさらなる実験的進歩を刺激し,コミュニティによって改良・拡張され,多種多様な構成で高い性能を期待する。

Quantum Key Distribution (QKD) enables secret key exchange between two remote parties with information-theoretic security rooted in the laws of quantum physics. Encoding key information in continuous variables (CV), such as the values of quadrature components of coherent states of light, brings implementations much closer to standard optical communication systems, but this comes at the price of significant complexity in the digital signal processing techniques required for operation at low signal-to-noise ratios. In this work, we wish to lower the barriers to entry for CV-QKD experiments associated to this difficulty by providing a highly modular, open source software that is in principle hardware agnostic and can be used in multiple configurations. We benchmarked this software, called QOSST, using an experimental setup with a locally generated local oscillator, frequency multiplexed pilots and RF-heterodyne detection, and obtained state-of-the-art secret key rates of the order of Mbit/s over metropolitan distances at the asymptotic limit. We hope that QOSST can be used to stimulate further experimental advances in CV-QKD and be improved and extended by the community to achieve high performance in a wide variety of configurations.
翻訳日:2024-05-30 00:39:49 公開日:2024-05-28
# MicroDreamer: スコアベースイテレーティブレコンストラクションによる$\sim$20秒のゼロショット3D生成

MicroDreamer: Zero-shot 3D Generation in $\sim$20 Seconds by Score-based Iterative Reconstruction ( http://arxiv.org/abs/2404.19525v2 )

ライセンス: Link先を確認
Luxi Chen, Zhengyi Wang, Zihan Zhou, Tingting Gao, Hang Su, Jun Zhu, Chongxuan Li, (参考訳) スコア蒸留サンプリング(SDS)のような最適化に基づくアプローチは、ゼロショット3D生成において有望であるが、主に各試料に必要な関数評価(NFE)の多さにより、低効率に悩まされている。 本稿では,NFEの削減のために,異なる3次元再構成過程を模倣した効率的かつ汎用的なアルゴリズムであるスコアベース反復再構成(SIR)を提案する。 多視点スコアベース拡散モデルから一組のイメージがサンプリングされた場合、SIRはSDSの単一ステップ最適化とは異なり、繰り返し3Dパラメータを最適化する。 トレーニングにおける他の改善とともに、様々な3D表現や3D生成タスクに適用可能な、MicroDreamerと呼ばれる効率的なアプローチを提案する。 特に同等のパフォーマンスを維持しているMicroDreamerは、SDSよりも5~20倍高速で、A100 GPU上で3Dガウススプレイティングからメッシュを生成するのに約20秒かかり、最速のゼロショットベースラインであるDreamGaussianの時間を半減する。 私たちのコードは \url{https://github.com/ML-GSAI/MicroDreamer} で利用可能です。

Optimization-based approaches, such as score distillation sampling (SDS), show promise in zero-shot 3D generation but suffer from low efficiency, primarily due to the high number of function evaluations (NFEs) required for each sample. In this paper, we introduce score-based iterative reconstruction (SIR), an efficient and general algorithm mimicking a differentiable 3D reconstruction process to reduce the NFEs. Given a single set of images sampled from a multi-view score-based diffusion model, SIR repeatedly optimizes 3D parameters, unlike the single-step optimization in SDS. With other improvements in training, we present an efficient approach called MicroDreamer that generally applies to various 3D representations and 3D generation tasks. In particular, retaining a comparable performance, MicroDreamer is 5-20 times faster than SDS in generating neural radiance field and takes about 20 seconds to generate meshes from 3D Gaussian splatting on a single A100 GPU, halving the time of the fastest zero-shot baseline, DreamGaussian. Our code is available at \url{https://github.com/ML-GSAI/MicroDreamer}.
翻訳日:2024-05-30 00:39:49 公開日:2024-05-28
# ニューラルネットワークによる動的データ評価

Neural Dynamic Data Valuation ( http://arxiv.org/abs/2404.19557v2 )

ライセンス: Link先を確認
Zhangyong Liang, Huanhuan Gao, Ji Zhang, (参考訳) データ・エコノミーとその市場の基礎的な構成要素はデータ・エコノミーである。 効率的で公正なデータ評価が、重要な関心事のトピックとして浮上している。 > 限界貢献に基づく多くのアプローチは、様々な下流タスクにおいて有望な結果を示している。 しかしながら、特定の目的のために与えられたデータセットの有用性や価値を評価するために使用される、多数のユーティリティ関数のトレーニングを必要とするため、計算コストが広く知られている。 その結果、大規模なデータセットを含むデータマーケットプレースにこれらの手法を適用することは不可能であると認識されている。 その結果、重要な問題が発生する: ユーティリティ関数の再トレーニングをどうやって回避できるのか? この問題に対処するために,ニューラルダイナミックデータ評価(NDDV)と呼ばれる最適制御の観点から,新しいデータ評価手法を提案する。 本手法は,データ最適制御状態の感度を用いて,データ評価を正確に識別する理論的解釈を持つ。 さらに,データポイントのユニークな特徴を捉え,データポイントと平均場状態の相互作用による公平性を確保するために,データ再重み付け戦略を実装した。 特に,本手法では,すべてのデータポイントの値を推定するために1回のみのトレーニングが必要であり,計算効率が大幅に向上する。 さまざまなデータセットとタスクを使用して包括的な実験を行います。 その結果,提案手法は既存の最先端データ評価手法よりも高い値または低値のデータポイントを正確に同定し,より計算効率がよいことを示す。

Data constitute the foundational component of the data economy and its marketplaces. Efficient and fair data valuation has emerged as a topic of significant interest.\ Many approaches based on marginal contribution have shown promising results in various downstream tasks. However, they are well known to be computationally expensive as they require training a large number of utility functions, which are used to evaluate the usefulness or value of a given dataset for a specific purpose. As a result, it has been recognized as infeasible to apply these methods to a data marketplace involving large-scale datasets. Consequently, a critical issue arises: how can the re-training of the utility function be avoided? To address this issue, we propose a novel data valuation method from the perspective of optimal control, named the neural dynamic data valuation (NDDV). Our method has solid theoretical interpretations to accurately identify the data valuation via the sensitivity of the data optimal control state. In addition, we implement a data re-weighting strategy to capture the unique features of data points, ensuring fairness through the interaction between data points and the mean-field states. Notably, our method requires only training once to estimate the value of all data points, significantly improving the computational efficiency. We conduct comprehensive experiments using different datasets and tasks. The results demonstrate that the proposed NDDV method outperforms the existing state-of-the-art data valuation methods in accurately identifying data points with either high or low values and is more computationally efficient.
翻訳日:2024-05-30 00:39:49 公開日:2024-05-28
# MMTryon:高品質ファッション生成のためのマルチモードマルチ参照制御

MMTryon: Multi-Modal Multi-Reference Control for High-Quality Fashion Generation ( http://arxiv.org/abs/2405.00448v2 )

ライセンス: Link先を確認
Xujie Zhang, Ente Lin, Xiu Li, Yuxuan Luo, Michael Kampffmeyer, Xin Dong, Xiaodan Liang, (参考訳) 本稿では,テキストインストラクションと複数の衣料品イメージを入力として,高品質な合成試行結果を生成するマルチモーダルマルチ参照VITONフレームワークであるMMTryonを紹介する。 MMTryonは,先行文献で見落とされた3つの問題に対処する。 既存の方法は通常、単着の試着作業(例えば、上着と下着、ドレス)のために設計されている。 2)ドレッシングスタイルの特定 既存の方法では、指示(例: zipped/unzipped, tuck-in/tuck-outなど)に基づいてドレッシングスタイルをカスタマイズできない。 さらに、置換領域を特定するためにカテゴリ固有のセグメンテーションモデルに強く依存しており、セグメンテーションエラーは試行錯誤の結果において直接的に重要なアーティファクトに繋がる。 最初の2つの課題に対処するため,MMTryonでは,参照画像からの衣服情報とテキスト指示からのドレッシングスタイル情報を組み合わせた,新しいマルチモーダリティとマルチリファレンスアテンション機構を導入している。 さらに、セグメンテーション依存を取り除くために、MMTryonはパーシングフリーの衣料エンコーダを使用し、新しいスケーラブルなデータ生成パイプラインを活用して、既存のVITONデータセットを明示的なセグメンテーションを必要とせずに、MMTryonをトレーニング可能な形式に変換する。 高解像度のベンチマークと実験セットに関する大規模な実験は、MMTryonが既存のSOTA法よりも質的かつ定量的に優れていることを示した。 MMTryonは、マルチテムでスタイル制御可能な仮想試用シナリオにおける印象的なパフォーマンスと、あらゆるソースイメージからさまざまなシナリオであらゆる服を試す能力によって、ファッションコミュニティにおける将来の調査のための新たな道を開いた。

This paper introduces MMTryon, a multi-modal multi-reference VIrtual Try-ON (VITON) framework, which can generate high-quality compositional try-on results by taking a text instruction and multiple garment images as inputs. Our MMTryon addresses three problems overlooked in prior literature: 1) Support of multiple try-on items. Existing methods are commonly designed for single-item try-on tasks (e.g., upper/lower garments, dresses). 2)Specification of dressing style. Existing methods are unable to customize dressing styles based on instructions (e.g., zipped/unzipped, tuck-in/tuck-out, etc.) 3) Segmentation Dependency. They further heavily rely on category-specific segmentation models to identify the replacement regions, with segmentation errors directly leading to significant artifacts in the try-on results. To address the first two issues, our MMTryon introduces a novel multi-modality and multi-reference attention mechanism to combine the garment information from reference images and dressing-style information from text instructions. Besides, to remove the segmentation dependency, MMTryon uses a parsing-free garment encoder and leverages a novel scalable data generation pipeline to convert existing VITON datasets to a form that allows MMTryon to be trained without requiring any explicit segmentation. Extensive experiments on high-resolution benchmarks and in-the-wild test sets demonstrate MMTryon's superiority over existing SOTA methods both qualitatively and quantitatively. MMTryon's impressive performance on multi-item and style-controllable virtual try-on scenarios and its ability to try on any outfit in a large variety of scenarios from any source image, opens up a new avenue for future investigation in the fashion community.
翻訳日:2024-05-30 00:39:49 公開日:2024-05-28
# 一般化等角的タイトフレームからの情報過完全測定

Informationally overcomplete measurements from generalized equiangular tight frames ( http://arxiv.org/abs/2405.00560v2 )

ライセンス: Link先を確認
Katarzyna Siudzińska, (参考訳) 情報の過剰な測定は、量子トモグラフィーと量子状態推定に重要な応用を見出す。 最も一般的なのは相互に偏りのない基底の最大集合であり、測定作用素間のトレース関係はよく知られている。 本稿では、任意のランクの等角的タイトフレームによって生成される情報的にオーバーコンプリートなPOVMのより一般的なクラスを紹介する。 このクラスは、互いに偏りのない測度と基底の再スケールを含む非射影POVMへの等角測度を一般化する。 本稿では, それらの構成法, 対称性特性の解析, 高対称性の場合の例について述べる。 特に、円錐型2-設計である一般化された等角測定の幅広いクラスを見つけ、偶然の指数を導出することができる。 以上の結果から,POVM の情報完全コレクションに対して,情報の過剰な測定を単一で行うことのメリットが示唆された。

Informationally overcomplete measurements find important applications in quantum tomography and quantum state estimation. The most popular are maximal sets of mutually unbiased bases, for which trace relations between measurement operators are well known. In this paper, we introduce a more general class of informationally overcomplete POVMs that are generated by equiangular tight frames of arbitrary rank. This class provides a generalization of equiangular measurements to non-projective POVMs, which include rescaled mutually unbiased measurements and bases. We provide a method of their construction, analyze their symmetry properties, and provide examples for highly symmetric cases. In particular, we find a wide class of generalized equiangular measurements that are conical 2-designs, which allows us to derive the index of coincidence. Our results show benefits of considering a single informationally overcomplete measurement over informationally complete collections of POVMs.
翻訳日:2024-05-30 00:39:49 公開日:2024-05-28
# Spider: コンテキスト依存の概念セグメンテーションのための統一フレームワーク

Spider: A Unified Framework for Context-dependent Concept Segmentation ( http://arxiv.org/abs/2405.01002v2 )

ライセンス: Link先を確認
Xiaoqi Zhao, Youwei Pang, Wei Ji, Baicheng Sheng, Jiaming Zuo, Lihe Zhang, Huchuan Lu, (参考訳) 人間、車、飛行機のような文脈に依存しない(CI)概念とは異なり、文脈に依存しない(CD)概念は、偽装された物体や医学的病変のような高い視覚的理解能力を必要とする。 多くのCD理解タスクが各ブランチで急速に進歩したにもかかわらず、分離された進化はドメイン間の一般化と反復的な技術革新に繋がる。 CDタスクには前景と背景のコンテキストの間に強い結合関係があるため、既存の手法では焦点を絞った領域で個別のモデルを訓練する必要がある。 これは、人工知能(AGI)に対する現実のCD概念の理解を制限する。 パラメータセット1セットの統一モデルであるSpiderを提案する。 イメージマスクグループプロンプトによって駆動される提案されたコンセプトフィルタの助けを借りて、スパイダーはプロンプターの意図を正確に捉えるために、多様なコンテキスト依存の概念を理解し、区別することができる。 ベルとホイッスルがなければ、スパイダーは8つの異なるコンテキスト依存のセグメンテーションタスクにおいて最先端の特殊モデルよりも優れており、その中には4つの自然なシーン(塩分、カモフラージュ、透明な物体と影)と4つの医学的病変(COVID-19、ポリプ、乳房、皮膚病変、大腸内視鏡、CT、超音波、皮膚内視鏡のモダリティ)が含まれる。 さらに、スパイダーは継続的学習における明らかなアドバンテージを示している。 パラメータを1\%未満に微調整することで、新しいタスクのトレーニングを簡単に完了し、古いタスクすべてに対して許容可能なパフォーマンス劣化を5\%以下にする。 ソースコードは \href{https://github.com/Xiaoqi-Zhao-DLUT/Spider-UniCDSeg}{Spider-UniCDSeg} で公開されている。

Different from the context-independent (CI) concepts such as human, car, and airplane, context-dependent (CD) concepts require higher visual understanding ability, such as camouflaged object and medical lesion. Despite the rapid advance of many CD understanding tasks in respective branches, the isolated evolution leads to their limited cross-domain generalisation and repetitive technique innovation. Since there is a strong coupling relationship between foreground and background context in CD tasks, existing methods require to train separate models in their focused domains. This restricts their real-world CD concept understanding towards artificial general intelligence (AGI). We propose a unified model with a single set of parameters, Spider, which only needs to be trained once. With the help of the proposed concept filter driven by the image-mask group prompt, Spider is able to understand and distinguish diverse strong context-dependent concepts to accurately capture the Prompter's intention. Without bells and whistles, Spider significantly outperforms the state-of-the-art specialized models in 8 different context-dependent segmentation tasks, including 4 natural scenes (salient, camouflaged, and transparent objects and shadow) and 4 medical lesions (COVID-19, polyp, breast, and skin lesion with color colonoscopy, CT, ultrasound, and dermoscopy modalities). Besides, Spider shows obvious advantages in continuous learning. It can easily complete the training of new tasks by fine-tuning parameters less than 1\% and bring a tolerable performance degradation of less than 5\% for all old tasks. The source code will be publicly available at \href{https://github.com/Xiaoqi-Zhao-DLUT/Spider-UniCDSeg}{Spider-UniCDSeg}.
翻訳日:2024-05-30 00:39:49 公開日:2024-05-28
# コントラスト学習によるクロスモーダル蒸留の一般化理論

A Generalization Theory of Cross-Modality Distillation with Contrastive Learning ( http://arxiv.org/abs/2405.03355v2 )

ライセンス: Link先を確認
Hangyu Lin, Chen Liu, Chengming Xu, Zhengqi Gao, Yanwei Fu, Yuan Yao, (参考訳) クロスモダリティ蒸留は、深度マップや高品質スケッチのような限られた知識を含むデータモダリティにとって重要なトピックである。 このようなテクニックは特に、ラベル付きトレーニングデータが一般に利用できないメモリやプライバシに制限されたシナリオにおいて非常に重要である。 この問題を解決するために、既存のラベルフリーな手法では、いくつかのラベルなしデータを利用して、ソースとターゲットのモダリティの特徴や統計を整合させて知識を抽出する。 例えば、典型的には、ソース(eg画像)とターゲット(egスケッチ)モダリティ内のサンプルのペアの学習した特徴間のL2距離や対照的な損失を最小限にすることを目的としている。 しかし、この分野のほとんどのアルゴリズムは実験結果にのみ焦点をあてているが、理論的な洞察は得られていない。 クロスモダリティ蒸留の理論と実践的手法のギャップを埋めるために,まず,正と負の対応を両立したコントラスト学習に基づくクロスモダリティコントラスト蒸留(CMCD)の一般的な枠組みを,より優れた一般化可能な特徴の蒸留に向けて定式化する。 さらに、実験結果から検証した目標モード内の下流タスクにおいて、ソースと目標モード間の距離がテストエラーに大きく影響することを明らかにする、徹底的な収束解析を確立した。 画像,スケッチ,深度マップ,および音声認識とセグメンテーションのタスクのモダリティを網羅し,既存のアルゴリズムを2~3倍のマージンで一貫した性能を示した。

Cross-modality distillation arises as an important topic for data modalities containing limited knowledge such as depth maps and high-quality sketches. Such techniques are of great importance, especially for memory and privacy-restricted scenarios where labeled training data is generally unavailable. To solve the problem, existing label-free methods leverage a few pairwise unlabeled data to distill the knowledge by aligning features or statistics between the source and target modalities. For instance, one typically aims to minimize the L2 distance or contrastive loss between the learned features of pairs of samples in the source (e.g. image) and the target (e.g. sketch) modalities. However, most algorithms in this domain only focus on the experimental results but lack theoretical insight. To bridge the gap between the theory and practical method of cross-modality distillation, we first formulate a general framework of cross-modality contrastive distillation (CMCD), built upon contrastive learning that leverages both positive and negative correspondence, towards a better distillation of generalizable features. Furthermore, we establish a thorough convergence analysis that reveals that the distance between source and target modalities significantly impacts the test error on downstream tasks within the target modality which is also validated by the empirical results. Extensive experimental results show that our algorithm outperforms existing algorithms consistently by a margin of 2-3\% across diverse modalities and tasks, covering modalities of image, sketch, depth map, and audio and tasks of recognition and segmentation.
翻訳日:2024-05-30 00:39:49 公開日:2024-05-28
# ハイパーグラフ強化デュアル半教師付きグラフ分類

Hypergraph-enhanced Dual Semi-supervised Graph Classification ( http://arxiv.org/abs/2405.04773v2 )

ライセンス: Link先を確認
Wei Ju, Zhengyang Mao, Siyu Yi, Yifang Qin, Yiyang Gu, Zhiping Xiao, Yifan Wang, Xiao Luo, Ming Zhang, (参考訳) 本稿では,限定ラベル付きグラフと豊富なラベル付きグラフを用いたシナリオにおいて,グラフのカテゴリを正確に予測することを目的とした半教師付きグラフ分類について検討する。 グラフニューラルネットワーク(GNN)の有望な能力にもかかわらず、彼らは通常、多くのコストのかかるラベル付きグラフを必要とする。 さらに、GNNは本来、メッセージパッシング機構を用いたローカル近隣情報の符号化に限られており、ノード間の高次依存関係をモデル化する能力が欠如している。 これらの課題に対処するために,ハイパーグラフと線グラフの観点からグラフ意味を抽出する半教師付きグラフ分類のためのハイパーグラフ拡張DuALフレームワークHEALを提案する。 具体的には、ノード間の高次関係をよりよく探求するため、ペア関係を超えた複雑なノード依存を適応的に学習するハイパーグラフ構造を設計する。 一方、学習したハイパーグラフに基づいて、ハイパーエッジ間の相互作用を捉える線グラフを導入し、基盤となるセマンティック構造をよりよくマイニングする。 最後に,2つの分野間の知識伝達を容易にし,相互指導を向上する関係整合性学習を開発する。 実世界のグラフデータセットに対する大規模な実験により,既存の最先端手法に対する提案手法の有効性が検証された。

In this paper, we study semi-supervised graph classification, which aims at accurately predicting the categories of graphs in scenarios with limited labeled graphs and abundant unlabeled graphs. Despite the promising capability of graph neural networks (GNNs), they typically require a large number of costly labeled graphs, while a wealth of unlabeled graphs fail to be effectively utilized. Moreover, GNNs are inherently limited to encoding local neighborhood information using message-passing mechanisms, thus lacking the ability to model higher-order dependencies among nodes. To tackle these challenges, we propose a Hypergraph-Enhanced DuAL framework named HEAL for semi-supervised graph classification, which captures graph semantics from the perspective of the hypergraph and the line graph, respectively. Specifically, to better explore the higher-order relationships among nodes, we design a hypergraph structure learning to adaptively learn complex node dependencies beyond pairwise relations. Meanwhile, based on the learned hypergraph, we introduce a line graph to capture the interaction between hyperedges, thereby better mining the underlying semantic structures. Finally, we develop a relational consistency learning to facilitate knowledge transfer between the two branches and provide better mutual guidance. Extensive experiments on real-world graph datasets verify the effectiveness of the proposed method against existing state-of-the-art methods.
翻訳日:2024-05-30 00:39:49 公開日:2024-05-28
# 一般化ベイズによる外乱カルマンフィルタ

Outlier-robust Kalman Filtering through Generalised Bayes ( http://arxiv.org/abs/2405.05646v2 )

ライセンス: Link先を確認
Gerardo Duran-Martin, Matias Altamirano, Alexander Y. Shestopaloff, Leandro Sánchez-Betancourt, Jeremias Knoblauch, Matt Jones, François-Xavier Briol, Kevin Murphy, (参考訳) 我々は、外れ値や不特定測定モデルの存在下で、状態空間モデルにおけるオンラインフィルタリングのための新しい、確実に堅牢でクローズドなベイズ更新ルールを導出する。 提案手法は,一般化ベイズ推定と拡張カルマンフィルタやアンサンブルカルマンフィルタなどのフィルタリング手法を組み合わせる。 非線形モデルの場合, 前者はロバスト性を示すために, 後者は計算効率を確保するために使用する。 我々の手法は、より少ない計算コストで、他の頑健なフィルタリング手法(変分ベイズに基づくものなど)に適合または優れる。 我々は、物体追跡、高次元カオスシステムにおける状態推定、ニューラルネットワークのオンライン学習など、外乱測定によるフィルタリング問題に対して、これを実証的に示す。

We derive a novel, provably robust, and closed-form Bayesian update rule for online filtering in state-space models in the presence of outliers and misspecified measurement models. Our method combines generalised Bayesian inference with filtering methods such as the extended and ensemble Kalman filter. We use the former to show robustness and the latter to ensure computational efficiency in the case of nonlinear models. Our method matches or outperforms other robust filtering methods (such as those based on variational Bayes) at a much lower computational cost. We show this empirically on a range of filtering problems with outlier measurements, such as object tracking, state estimation in high-dimensional chaotic systems, and online learning of neural networks.
翻訳日:2024-05-30 00:29:50 公開日:2024-05-28
# 量子対古典$P$-divisibility

Quantum vs. classical $P$-divisibility ( http://arxiv.org/abs/2405.05794v2 )

ライセンス: Link先を確認
Fabio Benatti, Dariusz Chruściński, Giovanni Nichele, (参考訳) 古典的および量子的非マルコフ過程において、$P$-divisibilityは中心的な概念である。 直交射影の完全な集合によって生成される固定可換代数に制限されるとき、任意の量子力学は自然に古典的確率過程を与える。 量子発生器が$P$分割可能な量子力学を生じさせるのは、古典的還元の可能な全ての還元が可分な古典的確率過程をもたらす場合に限る。 しかし、この性質は、生成元の代わりに量子力学写像の古典的還元を演算した場合は成り立たない:例えば、ユニタリ力学の場合、古典的還元の$P$-divisibilityは必然的に失われ、情報逆フローが現れる。 代わりに、純粋に散逸的な量子ビット進化のいくつかの重要なクラスに対して、量子$P$-divisibilityは常に古典的な$P$-divisibilityを意味し、したがって量子的シナリオと古典的シナリオの両方において情報のバックフローが欠如している。 それとは対照的に、直交共変量子ビット力学の幅広いクラスにおいて、古典的な$P$分割性の喪失は、ユニタリの場合のように、純粋に散逸可能な$P$分割可能な量子力学の古典的な還元から生じることが示される。 さらに、そのような効果は、時間進化する量子状態のコヒーレンスに格納される情報バックフローの観点から解釈することができる。

$P$-divisibility is a central concept in both classical and quantum non-Markovian processes; in particular, it is strictly related to the notion of information backflow. When restricted to a fixed commutative algebra generated by a complete set of orthogonal projections, any quantum dynamics naturally provides a classical stochastic process. It is indeed well known that a quantum generator gives rise to a $P$-divisible quantum dynamics if and only if all its possible classical reductions give rise to divisible classical stochastic processes. Yet, this property does not hold if one operates a classical reduction of the quantum dynamical maps instead of their generators: as an example, for a unitary dynamics, $P$-divisibility of its classical reduction is inevitably lost, which thus exhibits information backflow. Instead, for some important classes of purely dissipative qubit evolutions, quantum $P$-divisibility always implies classical $P$-divisibility and thus lack of information backflow both in the quantum and classical scenarios. On the contrary, for a wide class of orthogonally covariant qubit dynamics, we show that loss of classical $P$-divisibility can originate from the classical reduction of a purely dissipative $P$-divisible quantum dynamics as in the unitary case. Moreover, such an effect can be interpreted in terms of information backflow, the information coming in being stored in the coherences of the time-evolving quantum state.
翻訳日:2024-05-30 00:29:50 公開日:2024-05-28
# DOLOMITES:ドメイン特有なロングフォームなメソジカルタスク

DOLOMITES: Domain-Specific Long-Form Methodical Tasks ( http://arxiv.org/abs/2405.05938v2 )

ライセンス: Link先を確認
Chaitanya Malaviya, Priyanka Agrawal, Kuzman Ganchev, Pranesh Srinivasan, Fantine Huot, Jonathan Berant, Mark Yatskar, Dipanjan Das, Mirella Lapata, Chris Alberti, (参考訳) さまざまな分野の専門家は、計画、組織化、報告を行うための方法論的な記述タスクを日常的に実行します。 患者に対する鑑別診断を書く臨床医から、学生のための授業計画を書く教師まで、これらのタスクは広く行き渡っており、与えられた入力に対して構造化された長期出力を体系的に生成する必要がある。 本研究では,タスク目標,手順,入力,出力の形式で構成された方法論的タスクのタイプを考案し,25分野から数百人の専門家から得られた519のタスクを仕様化した新しいベンチマークであるDoLoMiTesを紹介する。 さらに,本ベンチマークでは,各タスクのモデル生成例を10点まで抽出し,具体的な入力例と出力例(1,857件)を具体化する。 これらの例を用いて、与えられたコンテキストとドメイン知識を描画しながら複雑な推論を行う必要があるため、方法論的タスクの自動化が困難な長文生成問題であることを強調した現代言語モデルを評価する。

Experts in various fields routinely perform methodical writing tasks to plan, organize, and report their work. From a clinician writing a differential diagnosis for a patient, to a teacher writing a lesson plan for students, these tasks are pervasive, requiring to methodically generate structured long-form output for a given input. We develop a typology of methodical tasks structured in the form of a task objective, procedure, input, and output, and introduce DoLoMiTes, a novel benchmark with specifications for 519 such tasks elicited from hundreds of experts from across 25 fields. Our benchmark further contains specific instantiations of methodical tasks with concrete input and output examples (1,857 in total) which we obtain by collecting expert revisions of up to 10 model-generated examples of each task. We use these examples to evaluate contemporary language models highlighting that automating methodical tasks is a challenging long-form generation problem, as it requires performing complex inferences, while drawing upon the given context as well as domain knowledge.
翻訳日:2024-05-30 00:29:50 公開日:2024-05-28
# マイクロバイオームのハビタット特異性における遺伝子相互作用効果のための全ゲノムトランス

Whole Genome Transformer for Gene Interaction Effects in Microbiome Habitat Specificity ( http://arxiv.org/abs/2405.05998v2 )

ライセンス: Link先を確認
Zhufeng Li, Sandeep S Cranganore, Nicholas Youngblut, Niki Kilbertus, (参考訳) マイクロバイオーム内の膨大な遺伝的多様性を活用することで、複雑な表現型に関する非並列的な洞察が得られるが、そのような特徴をゲノムデータから正確に予測し理解する作業は依然として困難である。 本研究では、遺伝子ベクター化のための既存の大規模モデルを利用して、微生物ゲノム配列全体から生息地特異性を予測する枠組みを提案する。 本モデルに基づいて,微生物を多様な環境に適応させる遺伝子相互作用効果を解明するための属性技術を開発した。 我々は、異なる生息地から得られた高品質のマイクロバイオームゲノムの大規模なデータセット上で、我々のアプローチを訓練し、検証する。 我々は、確固とした予測性能を示すだけでなく、ゲノム全体の配列レベルの情報によって、複雑な表現型に基づく遺伝子関連を識別する方法についても示している。 我々の属性は、既知の重要な相互作用ネットワークを復元し、実験的なフォローアップのための新しい候補を提案する。

Leveraging the vast genetic diversity within microbiomes offers unparalleled insights into complex phenotypes, yet the task of accurately predicting and understanding such traits from genomic data remains challenging. We propose a framework taking advantage of existing large models for gene vectorization to predict habitat specificity from entire microbial genome sequences. Based on our model, we develop attribution techniques to elucidate gene interaction effects that drive microbial adaptation to diverse environments. We train and validate our approach on a large dataset of high quality microbiome genomes from different habitats. We not only demonstrate solid predictive performance, but also how sequence-level information of entire genomes allows us to identify gene associations underlying complex phenotypes. Our attribution recovers known important interaction networks and proposes new candidates for experimental follow up.
翻訳日:2024-05-30 00:29:50 公開日:2024-05-28
# 局所高調波距離を用いた擬似近傍分類法

A Novel Pseudo Nearest Neighbor Classification Method Using Local Harmonic Mean Distance ( http://arxiv.org/abs/2405.06238v2 )

ライセンス: Link先を確認
Junzhuo Chen, Zhixin Lu, Shitong Kang, (参考訳) 機械学習の分野では、KNN分類アルゴリズムは単純さと効率性で広く認識されている。 しかしながら、K値に対する感度は、特に小さなサンプルサイズや外れ値では、分類性能に影響を及ぼす。 本稿では,KNN を用いた LMPHNN (Novel Pseudo Nearest Neighbor Classification Method Using Local Harmonic Mean Distance) について紹介する。 LMPHNNは、LMPNNルールとHMDに基づく分類性能を改善するために、調和平均距離(HMD)を利用する。 分類器は、各クラスに最も近い k 個の近傍を識別し、異なる局所ベクトルをプロトタイプとして生成することから始まる。 Pseudo Near neighbors (PNN) は各クラスの局所平均に基づいて作成され、サンプルのHMDと初期k群を比較して決定される。 これらのカテゴリの局所平均に基づいて、クエリサンプルとPNN間のユークリッド距離を計算することで分類を決定する。 さまざまな実UCIデータセットと組み合わせデータセットに関する大規模な実験は、LMPHNNと7つのKNNベースの分類器を比較し、精度、リコール、精度、F1を評価指標として用いた。 LMPHNNは平均97%の精度を達成し、他の手法を14%上回っている。 平均リコールは12%改善され、平均精度は5%向上した。 さらに、LMPHNNは他の手法に比べて平均F1値が13%高いことを示す。 まとめると、LMPHNNは他の分類器よりも優れており、小さなサンプルサイズで低い感度を示す。

In the realm of machine learning, the KNN classification algorithm is widely recognized for its simplicity and efficiency. However, its sensitivity to the K value poses challenges, especially with small sample sizes or outliers, impacting classification performance. This article introduces a novel KNN-based classifier called LMPHNN (Novel Pseudo Nearest Neighbor Classification Method Using Local Harmonic Mean Distance). LMPHNN leverages harmonic mean distance (HMD) to improve classification performance based on LMPNN rules and HMD. The classifier begins by identifying k nearest neighbors for each class and generates distinct local vectors as prototypes. Pseudo nearest neighbors (PNNs) are then created based on the local mean for each class, determined by comparing the HMD of the sample with the initial k group. Classification is determined by calculating the Euclidean distance between the query sample and PNNs, based on the local mean of these categories. Extensive experiments on various real UCI datasets and combined datasets compare LMPHNN with seven KNN-based classifiers, using precision, recall, accuracy, and F1 as evaluation metrics. LMPHNN achieves an average precision of 97%, surpassing other methods by 14%. The average recall improves by 12%, with an average accuracy enhancement of 5%. Additionally, LMPHNN demonstrates a 13% higher average F1 value compared to other methods. In summary, LMPHNN outperforms other classifiers, showcasing lower sensitivity with small sample sizes.
翻訳日:2024-05-30 00:29:50 公開日:2024-05-28
# DP-DyLoRA:動的低ランク適応を用いた個人差分学習環境下での微調整トランスフォーマーモデル

DP-DyLoRA: Fine-Tuning Transformer-Based Models On-Device under Differentially Private Federated Learning using Dynamic Low-Rank Adaptation ( http://arxiv.org/abs/2405.06368v2 )

ライセンス: Link先を確認
Jie Xu, Karthikeyan Saravanan, Rogier van Dalen, Haaris Mehmood, David Tuckey, Mete Ozay, (参考訳) フェデレートラーニング(FL)により、IoT(Internet of Things)システムのクライアントは、ローカルデータをサーバと共有することなく、グローバルモデルを協調的にトレーニングすることができる。 しかし、サーバへのクライアントのコントリビューションは機密情報を漏洩させる可能性がある。 差分プライバシ(DP)は、クライアントのコントリビューションにランダム性を加えるメカニズムを備えた、正式なプライバシ保証を提供することによって、そのようなリークに対処する。 このランダム性により、現代のIoTシステムで一般的な大きなトランスフォーマーベースのモデルをトレーニングすることは不可能になる。 本研究では,フェデレート学習システムにおいて,差分プライバシを持つデバイス上での大規模トランスフォーマーモデルの実現性を実証的に評価する。 我々は、音声認識、コンピュータビジョン(CV)、自然言語理解(NLU)など、多分野にわたるタスクに対して、様々なシステム特性に関する包括的な実験を行う。 この結果から,DP-FLによる完全微調整は,パラメータ効率のよい微調整(PEFT)による寄与の次元性を低減し,大きな性能劣化をもたらすことが示唆された。 既存のDP-PEFT手法のベンチマークでは,DP-Low-Rank Adaptation (DP-LoRA) が他の手法より一貫して優れていることが示された。 さらに有望なアプローチであるDyLoRAは、FLと鼻で組み合わせることで、直接差分プライバシーを損なう。 そこで本研究では,差分プライバシーと組み合わせてDP-DyLoRAと呼ぶ適応手法を提案する。 最後に、DPによる精度劣化と単語誤り率(WER)の増加を、それぞれ100万のクライアントと厳しいプライバシー予算である {\epsilon}=2で2%未満と7%に削減することができる。

Federated learning (FL) allows clients in an Internet of Things (IoT) system to collaboratively train a global model without sharing their local data with a server. However, clients' contributions to the server can still leak sensitive information. Differential privacy (DP) addresses such leakage by providing formal privacy guarantees, with mechanisms that add randomness to the clients' contributions. The randomness makes it infeasible to train large transformer-based models, common in modern IoT systems. In this work, we empirically evaluate the practicality of fine-tuning large scale on-device transformer-based models with differential privacy in a federated learning system. We conduct comprehensive experiments on various system properties for tasks spanning a multitude of domains: speech recognition, computer vision (CV) and natural language understanding (NLU). Our results show that full fine-tuning under differentially private federated learning (DP-FL) generally leads to huge performance degradation which can be alleviated by reducing the dimensionality of contributions through parameter-efficient fine-tuning (PEFT). Our benchmarks of existing DP-PEFT methods show that DP-Low-Rank Adaptation (DP-LoRA) consistently outperforms other methods. An even more promising approach, DyLoRA, which makes the low rank variable, when naively combined with FL would straightforwardly break differential privacy. We therefore propose an adaptation method that can be combined with differential privacy and call it DP-DyLoRA. Finally, we are able to reduce the accuracy degradation and word error rate (WER) increase due to DP to less than 2% and 7% respectively with 1 million clients and a stringent privacy budget of {\epsilon}=2.
翻訳日:2024-05-30 00:29:50 公開日:2024-05-28
# 変形可能な物体に対する学習対応

Learning Correspondence for Deformable Objects ( http://arxiv.org/abs/2405.08996v2 )

ライセンス: Link先を確認
Priya Sundaresan, Aditya Ganapathi, Harry Zhang, Shivin Devgon, (参考訳) 本稿では,古典的手法と学習的手法を比較し,変形可能なオブジェクト,すなわち布とロープの画素対応の問題について検討する。 布とロープは、伝統的に大きな構成空間で解析的にモデル化する最も難しい変形可能なオブジェクトであり、布の折り畳み、ロープ結び付け、Tシャツの折り畳み、カーテンの閉じなどといったロボット作業の文脈において意味がある。 対応問題はロボット工学において大きく動機付けられており、セマンティックな把握、オブジェクト追跡、および対応の上に構築された操作ポリシーを含む広範囲の応用がある。 本稿では,SIFT,SURF,ORBなどの特徴マッチングによる対応手法と,TimeCycle や Dense Object Nets などの学習に基づく2つの手法を網羅的に検討する。 我々は,(1) 変形可能なオブジェクトの合成画像のシミュレーションとレンダリングを行うフレームワーク,(2) 擬似ドメインと実ドメイン間の移動を示す定性的な結果,(2) デンスオブジェクトネットを拡張する新しい学習ベース対応手法,(3) 最先端の対応方法間の標準化された比較,の3つの主な貢献を行う。 提案手法は,非剛性(および剛性)物体に対する時間的および空間的連続的な対応を学習するための柔軟で汎用的な定式化を提供する。 Dense Object Netsは,すべてのメソッドに対して平均2乗誤差統計を報告し,ベースラインの古典的手法よりも高い性能を示し,提案したDense Object Netsの拡張も同様に機能する。

We investigate the problem of pixelwise correspondence for deformable objects, namely cloth and rope, by comparing both classical and learning-based methods. We choose cloth and rope because they are traditionally some of the most difficult deformable objects to analytically model with their large configuration space, and they are meaningful in the context of robotic tasks like cloth folding, rope knot-tying, T-shirt folding, curtain closing, etc. The correspondence problem is heavily motivated in robotics, with wide-ranging applications including semantic grasping, object tracking, and manipulation policies built on top of correspondences. We present an exhaustive survey of existing classical methods for doing correspondence via feature-matching, including SIFT, SURF, and ORB, and two recently published learning-based methods including TimeCycle and Dense Object Nets. We make three main contributions: (1) a framework for simulating and rendering synthetic images of deformable objects, with qualitative results demonstrating transfer between our simulated and real domains (2) a new learning-based correspondence method extending Dense Object Nets, and (3) a standardized comparison across state-of-the-art correspondence methods. Our proposed method provides a flexible, general formulation for learning temporally and spatially continuous correspondences for nonrigid (and rigid) objects. We report root mean squared error statistics for all methods and find that Dense Object Nets outperforms baseline classical methods for correspondence, and our proposed extension of Dense Object Nets performs similarly.
翻訳日:2024-05-30 00:29:50 公開日:2024-05-28
# カーネルリッジ回帰の飽和効果について

On the Saturation Effect of Kernel Ridge Regression ( http://arxiv.org/abs/2405.09362v2 )

ライセンス: Link先を確認
Yicheng Li, Haobo Zhang, Qian Lin, (参考訳) 飽和効果は、地下の真理関数の滑らかさが一定のレベルを超えると、カーネルリッジ回帰(KRR)が情報理論的下界を達成できない現象を指す。 飽和効果は慣行で広く見られ、KRRの飽和下限は数十年にわたって推測されてきた。 本稿では、この長期予想の証明を提供する。

The saturation effect refers to the phenomenon that the kernel ridge regression (KRR) fails to achieve the information theoretical lower bound when the smoothness of the underground truth function exceeds certain level. The saturation effect has been widely observed in practices and a saturation lower bound of KRR has been conjectured for decades. In this paper, we provide a proof of this long-standing conjecture.
翻訳日:2024-05-30 00:29:50 公開日:2024-05-28
# NeRO: ニューラルネットワークによる道路表面の再構築

NeRO: Neural Road Surface Reconstruction ( http://arxiv.org/abs/2405.10554v2 )

ライセンス: Link先を確認
Ruibo Wang, Song Zhang, Ping Huang, Donghai Zhang, Haoyu Chen, (参考訳) 道路面の正確な再構築は、特に自動運転における様々な用途において重要である。 本稿では,道路路面を設計するためのMLP(Multi-Layer Perceptrons)フレームワークを設計し,世界座標x,yとして入力し,高さ,色,意味情報として出力する。 本手法の有効性は,車両カメラのポーズ,LiDAR点雲,SFM点雲などの道路高度源との互換性,スパースラベルやノイズセマンティック予測などの画像のセマンティックノイズに対する堅牢性,高速なトレーニング速度,特に道路表面の可視化や4Dラベリング,セマンティックグルーピングなどのアプリケーションにおいて,セマンティックスで道路表面をレンダリングするための有望な応用を示す。

Accurately reconstructing road surfaces is pivotal for various applications especially in autonomous driving. This paper introduces a position encoding Multi-Layer Perceptrons (MLPs) framework to reconstruct road surfaces, with input as world coordinates x and y, and output as height, color, and semantic information. The effectiveness of this method is demonstrated through its compatibility with a variety of road height sources like vehicle camera poses, LiDAR point clouds, and SFM point clouds, robust to the semantic noise of images like sparse labels and noise semantic prediction, and fast training speed, which indicates a promising application for rendering road surfaces with semantics, particularly in applications demanding visualization of road surface, 4D labeling, and semantic groupings.
翻訳日:2024-05-30 00:29:50 公開日:2024-05-28
# ViViD:拡散モデルを用いたビデオバーチャルトライオン

ViViD: Video Virtual Try-on using Diffusion Models ( http://arxiv.org/abs/2405.11794v2 )

ライセンス: Link先を確認
Zixun Fang, Wei Zhai, Aimin Su, Hongliang Song, Kai Zhu, Mao Wang, Yu Chen, Zhiheng Liu, Yang Cao, Zheng-Jun Zha, (参考訳) Video Virtual try-onは、服のアイテムを対象者のビデオに転送することを目的としている。 画像ベーストライオンの技法をフレームワイズで直接適用すると、時間的に一貫性のない結果が生じるが、従来のビデオベーストライオンソリューションでは、視覚的品質が低く、ぼやけた結果しか得られない。 本稿では,ビデオ仮想試行の課題に取り組むために,強力な拡散モデルを用いた新しいフレームワークViViDを提案する。 具体的には、Garment Encoderを設計し、細粒度の衣服のセマンティックな特徴を抽出し、提案した注目特徴融合機構を通じて、被服の詳細を捕捉し、対象映像に注入するモデルを導出する。 空間的時間的整合性を確保するために,ポーズ信号を符号化する軽量なPose Encoderを導入し,衣服と姿勢の相互作用を学習し,階層型時間モジュールをテキストから画像への安定拡散モデルに挿入することで,よりコヒーレントでライフライクなビデオ合成を実現する。 さらに、最も多様な種類の衣服と、ビデオバーチャルトライオンのタスクのための最高の解像度を備えた、最大規模のデータセットを収集する。 大規模な実験により,本手法は良好なビデオ試行結果が得られることが示された。 データセット、コード、ウェイトが公開される。 プロジェクトページ: https://becauseimbatman0.github.io/ViViD。

Video virtual try-on aims to transfer a clothing item onto the video of a target person. Directly applying the technique of image-based try-on to the video domain in a frame-wise manner will cause temporal-inconsistent outcomes while previous video-based try-on solutions can only generate low visual quality and blurring results. In this work, we present ViViD, a novel framework employing powerful diffusion models to tackle the task of video virtual try-on. Specifically, we design the Garment Encoder to extract fine-grained clothing semantic features, guiding the model to capture garment details and inject them into the target video through the proposed attention feature fusion mechanism. To ensure spatial-temporal consistency, we introduce a lightweight Pose Encoder to encode pose signals, enabling the model to learn the interactions between clothing and human posture and insert hierarchical Temporal Modules into the text-to-image stable diffusion model for more coherent and lifelike video synthesis. Furthermore, we collect a new dataset, which is the largest, with the most diverse types of garments and the highest resolution for the task of video virtual try-on to date. Extensive experiments demonstrate that our approach is able to yield satisfactory video try-on results. The dataset, codes, and weights will be publicly available. Project page: https://becauseimbatman0.github.io/ViViD.
翻訳日:2024-05-30 00:29:50 公開日:2024-05-28
# 直感的なファインチューニング:1つのプロセスへのアライメントの簡易化を目指して

Intuitive Fine-Tuning: Towards Simplifying Alignment into a Single Process ( http://arxiv.org/abs/2405.11870v2 )

ライセンス: Link先を確認
Ermo Hua, Biqing Qi, Kaiyan Zhang, Yue Yu, Ning Ding, Xingtai Lv, Kai Tian, Bowen Zhou, (参考訳) Supervised Fine-Tuning (SFT) と Preference Optimization (PO) は、事前学習後の言語モデル(LM)の機能を強化するための2つの基本的なプロセスである。 SFTは訓練効率が向上するが、POはより優れたアライメントを提供するため、しばしば組み合わせられる。 しかしながら、一般的なプラクティスは、最適化の目的を統合することなく、それらをシーケンシャルに適用し、パラダイムギャップを埋め、両方の強みを取る機会を無視します。 統一された理解を得るために、我々は、Markov Decision Process (MDP)フレームワーク内のトークンレベルで定義された2つのサブプロセス、優先度推定と遷移最適化でSFTとPOを解釈する。 このモデリングにより、SFT は劣等な推定と最適化を伴う PO の特殊ケースに過ぎないことが分かる。 POはモデル全体の回答の質を評価し、SFTはターゲットの回答から前のトークンに基づいて予測トークンをスコアする。 したがって、SFTはモデルの性能を過大評価し、劣等な最適化をもたらす。 この観点から,SFT と Preference Optimization をひとつのプロセスに統合する直感的ファインチューニング (IFT) を導入する。 IFTは、LMの時間的残差接続による全回答の直感的な感覚を捉えているが、それは単一のポリシーとSFTと同量の非参照ラベルデータに依存している。 我々の実験により、IFTはSFTのシーケンシャルなレシピやいくつかのタスク、特に生成、推論、ファクトフォローの能力を必要とする典型的なPreference Optimization手法と相容れないか、あるいはそれ以上に優れていることが示されている。 説明可能なフロズンレイクゲームは、競争政策を得るためのIFTの有効性をさらに検証する。

Supervised Fine-Tuning (SFT) and Preference Optimization (PO) are two fundamental processes for enhancing the capabilities of Language Models (LMs) post pre-training, aligning them better with human preferences. Although SFT advances in training efficiency, PO delivers better alignment, thus they are often combined. However, common practices simply apply them sequentially without integrating their optimization objectives, ignoring the opportunities to bridge their paradigm gap and take the strengths from both. To obtain a unified understanding, we interpret SFT and PO with two sub-processes -- Preference Estimation and Transition Optimization -- defined at token level within the Markov Decision Process (MDP) framework. This modeling shows that SFT is only a specialized case of PO with inferior estimation and optimization. PO evaluates the quality of model's entire generated answer, whereas SFT only scores predicted tokens based on preceding tokens from target answers. Therefore, SFT overestimates the ability of model, leading to inferior optimization. Building on this view, we introduce Intuitive Fine-Tuning (IFT) to integrate SFT and Preference Optimization into a single process. IFT captures LMs' intuitive sense of the entire answers through a temporal residual connection, but it solely relies on a single policy and the same volume of non-preference-labeled data as SFT. Our experiments show that IFT performs comparably or even superiorly to sequential recipes of SFT and some typical Preference Optimization methods across several tasks, particularly those requires generation, reasoning, and fact-following abilities. An explainable Frozen Lake game further validates the effectiveness of IFT for getting competitive policy.
翻訳日:2024-05-30 00:29:50 公開日:2024-05-28
# Brewer-Nash Scrutinized:Write Revocationを特徴とするポリシーの機械的チェック

Brewer-Nash Scrutinised: Mechanised Checking of Policies featuring Write Revocation ( http://arxiv.org/abs/2405.12187v2 )

ライセンス: Link先を確認
Alfredo Capozucca, Maximiliano Cristiá, Ross Horne, Ricardo Katz, (参考訳) 本稿では,倫理的中国壁政策に触発されたブルワー・ナッシュ・セキュリティ・ポリシー・モデルを再考する。 我々はBrewer-Nashモデルで書き込みアクセスを無効にできるという事実に注意を払っている。 書き込みアクセスのセマンティクスはもともと不特定であり、現代の運用セマンティクスを提供する複数の解釈につながった。 我々は、Kesslerのより正確な定義を採用することにより、Brewer-Nashモデルにおける情報フローの分析を近代化する。 近代化された改革のために、Brewer & Nashによって提案された全ての定理について完全な機械化されたカバレッジを提供する。 ほとんどの定理は、情報フローに関する定理を除いて、ツール {log} を使って自動的に確立される。 ブリュワーナッシュが当初提案した全ての定理を網羅し、近代的な精度と機械化を実現し、より複雑なセキュリティポリシーモデルの自動チェックのための方法論への一歩として、本研究を提案する。

This paper revisits the Brewer-Nash security policy model inspired by ethical Chinese Wall policies. We draw attention to the fact that write access can be revoked in the Brewer-Nash model. The semantics of write access were underspecified originally, leading to multiple interpretations for which we provide a modern operational semantics. We go on to modernise the analysis of information flow in the Brewer-Nash model, by adopting a more precise definition adapted from Kessler. For our modernised reformulation, we provide full mechanised coverage for all theorems proposed by Brewer & Nash. Most theorems are established automatically using the tool {log} with the exception of a theorem regarding information flow, which combines a lemma in {log} with a theorem mechanised in Coq. Having covered all theorems originally posed by Brewer-Nash, achieving modern precision and mechanisation, we propose this work as a step towards a methodology for automated checking of more complex security policy models.
翻訳日:2024-05-30 00:29:50 公開日:2024-05-28
# $SU(N)$ゲージ理論のデジタル化と沈み込み

Digitization and subduction of $SU(N)$ gauge theories ( http://arxiv.org/abs/2405.12204v2 )

ライセンス: Link先を確認
Benoît Assi, Henry Lamm, (参考訳) 量子コンピュータ上の格子ゲージ理論のシミュレーションは、デジタル化ゲージ場を必要とする。 一つのアプローチは連続ゲージ群を離散部分群に置換することを含むが、この近似の含意はいまだに明確化する必要がある。 洞察を得るために, 離散結晶状部分群に対する$ SU(2) $ および $ SU(3)$ の沈み込みについて検討する。 古典的な格子計算を用いて,代入された直接和に基づいて付加価値情報を提供し,デジタル化の効果を緩和する格子作用に付加的な用語を組み込むのに役立つことを示す。 さらに、$ \Sigma(360 \times)のすべての既約表現の静的ポテンシャルを計算する。 3)固定格子間隔で$。 以上の結果から, 1 つの $ \Sigma(360 \times に代入する既約表現に対するカシミールスケーリング ( SU(3) ) との % レベルの一致が明らかとなった。 3)$ 既約表現。 これは近似品質の診断尺度であり、いくつかの既約表現は期待結果と密接に一致し、他の表現は大きな偏差を示す。

The simulation of lattice gauge theories on quantum computers necessitates digitizing gauge fields. One approach involves substituting the continuous gauge group with a discrete subgroup, but the implications of this approximation still need to be clarified. To gain insights, we investigate the subduction of $ SU(2) $ and $ SU(3)$ to discrete crystal-like subgroups. Using classical lattice calculations, we show that subduction offers valuable information based on subduced direct sums, helping us identify additional terms to incorporate into the lattice action that can mitigate the effects of digitization. Furthermore, we compute the static potentials of all irreducible representations of $ \Sigma(360 \times 3) $ at a fixed lattice spacing. Our results reveal a percent-level agreement with the Casimir scaling of ( SU(3) ) for irreducible representations that subduce to a single $ \Sigma(360 \times 3) $ irreducible representation. This provides a diagnostic measure of approximation quality, as some irreducible representations closely match the expected results while others exhibit significant deviations.
翻訳日:2024-05-30 00:29:50 公開日:2024-05-28
# 量子アニールの物理限界を拡張した統計量子ビット凍結

Statistical Qubit Freezing Extending Physical Limit of Quantum Annealers ( http://arxiv.org/abs/2405.12594v2 )

ライセンス: Link先を確認
Jeung Rac Lee, June-Koo Kevin Rhee, Changjun Kim, Bo Hyun Choi, (参考訳) Adiabatic quantum annealersは、クビット数の増加とともに、地面と励起状態の間の指数的に急速に減少するエネルギーギャップによってスケーラビリティに直面する。 これにより、熱雑音によって合成される基底状態の同定における誤差が生じる。 本稿では, 与えられた問題のアニーリングハミルトンモデルにおいて, 統計的決定的量子ビットの状態を選択的に固定する, SQF (Statistic qubit frozen) と呼ばれる新しいアルゴリズムスキームを提案する。 凍結を繰り返し適用することにより、例えば、SQFは、標準的なD-Waveの量子イジングマシンソリューションにおける従来のアニール法と比較して、断熱過程のスペクトルギャップを最大60 %向上させ、実質的に基本的な制限を克服する。

Adiabatic quantum annealers encounter scalability challenges due to exponentially fast diminishing energy gaps between ground and excited states with qubit-count increase. This introduces errors in identifying ground states compounded by a thermal noise. We propose a novel algorithmic scheme called statistical qubit freezing (SQF) that selectively fixes the state of statistically deterministic qubit in the annealing Hamiltonian model of the given problem. Applying freezing repeatedly, SQF significantly enhances the spectral gap between of an adiabatic process, as an example, by up to 60\% compared to traditional annealing methods in the standard D-Wave's quantum Ising machine solution, effectively overcoming the fundamental limitations.
翻訳日:2024-05-30 00:29:50 公開日:2024-05-28
# Aurora: 大気の基礎モデル

Aurora: A Foundation Model of the Atmosphere ( http://arxiv.org/abs/2405.13063v2 )

ライセンス: Link先を確認
Cristian Bodnar, Wessel P. Bruinsma, Ana Lucic, Megan Stanley, Johannes Brandstetter, Patrick Garvan, Maik Riechert, Jonathan Weyn, Haiyu Dong, Anna Vaughan, Jayesh K. Gupta, Kit Tambiratnam, Alex Archibald, Elizabeth Heider, Max Welling, Richard E. Turner, Paris Perdikaris, (参考訳) ディープラーニング基盤モデルは、大量のデータを活用して、さまざまな下流タスクに取り組むために適応可能な汎用的な表現を学ぶことで、科学の多くの側面に革命をもたらしている。 ファンデーションモデルは、地球系の膨大なデータを活用することで、地球とそのサブシステムをモデル化する能力も変革する、という約束を持っています。 ここではAuroraを紹介します。Auroraは、100万時間以上の多様な気象および気候データに基づいてトレーニングされた大気の大規模な基盤モデルです。 オーロラは基礎モデリングアプローチの強みを活用して、限られた訓練データ、異種変数、極端な事象を含む様々な大気予測問題に対する運用予測を生成する。 1分以内にオーロラは5日間の大気汚染予測と10日間の高解像度気象予測を生成し、最先端の古典的なシミュレーションツールと最高の専門的なディープラーニングモデルを上回った。 これらの結果は, 基礎モデルが環境予測を変換できることを示唆している。

Deep learning foundation models are revolutionizing many facets of science by leveraging vast amounts of data to learn general-purpose representations that can be adapted to tackle diverse downstream tasks. Foundation models hold the promise to also transform our ability to model our planet and its subsystems by exploiting the vast expanse of Earth system data. Here we introduce Aurora, a large-scale foundation model of the atmosphere trained on over a million hours of diverse weather and climate data. Aurora leverages the strengths of the foundation modelling approach to produce operational forecasts for a wide variety of atmospheric prediction problems, including those with limited training data, heterogeneous variables, and extreme events. In under a minute, Aurora produces 5-day global air pollution predictions and 10-day high-resolution weather forecasts that outperform state-of-the-art classical simulation tools and the best specialized deep learning models. Taken together, these results indicate that foundation models can transform environmental forecasting.
翻訳日:2024-05-30 00:20:06 公開日:2024-05-28
# SEGAN: 欠落データ計算のための半教師付き学習手法

SEGAN: semi-supervised learning approach for missing data imputation ( http://arxiv.org/abs/2405.13089v2 )

ライセンス: Link先を確認
Xiaohua Pan, Weifeng Wu, Peiran Liu, Zhen Li, Peng Lu, Peijian Cao, Jianfeng Zhang, Xianfei Qiu, YangYang Wu, (参考訳) 多くの実世界の応用において、データ不足は非常に一般的な現象であり、データ駆動人工知能理論や技術の開発がますます困難になっている。 データ補完は、データ前処理の欠如にとって重要な方法である。 ほとんどの既存のミススルーデータ補完モデルは、欠落したデータセットの既知の情報を直接使用するが、欠落したデータ補完モデルにデータセットに含まれるデータラベル情報の影響を無視する。 本稿では,主にジェネレータ,識別器,分類器の3つの重要なモジュールを含む半教師付き学習に基づくデータ補完モデルSEGANを提案する。 SEGANモデルでは、ジェネレータは、欠落したデータ値を予測する際に、既知のデータとそのラベル情報をよりフルに利用することができる。 さらに、SE-GANモデルでは、識別器が既知のデータとジェネレータによって満たされたデータをより効果的に識別できるように、ヒント行列が欠落している。 本稿では,分類器とヒント行列の欠如を導入したSEGANモデルが,ナッシュ平衡に達すると実データ分布特性を学習できることを理論的に証明する。 最後に, 本論文では, 多数の実験を行い, 実験結果から, 現状の多変量データ補完法と組み合わせて, SEGANモデルの性能を3%以上向上することを示した。

In many practical real-world applications, data missing is a very common phenomenon, making the development of data-driven artificial intelligence theory and technology increasingly difficult. Data completion is an important method for missing data preprocessing. Most existing miss-ing data completion models directly use the known information in the missing data set but ignore the impact of the data label information contained in the data set on the missing data completion model. To this end, this paper proposes a missing data completion model SEGAN based on semi-supervised learning, which mainly includes three important modules: generator, discriminator and classifier. In the SEGAN model, the classifier enables the generator to make more full use of known data and its label information when predicting missing data values. In addition, the SE-GAN model introduces a missing hint matrix to allow the discriminator to more effectively distinguish between known data and data filled by the generator. This paper theoretically proves that the SEGAN model that introduces a classifier and a missing hint matrix can learn the real known data distribution characteristics when reaching Nash equilibrium. Finally, a large number of experiments were conducted in this article, and the experimental results show that com-pared with the current state-of-the-art multivariate data completion method, the performance of the SEGAN model is improved by more than 3%.
翻訳日:2024-05-30 00:20:06 公開日:2024-05-28
# EVINCEフレームワークによる医療現場の真偽の確認

Ensuring Ground Truth Accuracy in Healthcare with the EVINCE framework ( http://arxiv.org/abs/2405.15808v2 )

ライセンス: Link先を確認
Edward Y. Chang, (参考訳) 誤診は医療において重大な問題であり、患者に有害な結果をもたらす。 機械学習モデルによる誤ったラベル付きデータの臨床実践への伝播は容認できない。 本稿では,EVINCEを提案する。 1【診断精度の向上】 2)誤診断を正し、トレーニングデータエラーを最小限にする。 EVINCE は、情報二重性によるエントロピー変化と等能力による表現であり、この新しい理論を利用して、構造化された議論フレームワークにおける複数の大規模言語モデル (LLM) を用いた診断プロセスを最適化する。 我々の実証研究はEVINCEが設計目標を達成するのに有効であることを検証している。

Misdiagnosis is a significant issue in healthcare, leading to harmful consequences for patients. The propagation of mislabeled data through machine learning models into clinical practice is unacceptable. This paper proposes EVINCE, a system designed to 1) improve diagnosis accuracy and 2) rectify misdiagnoses and minimize training data errors. EVINCE stands for Entropy Variation through Information Duality with Equal Competence, leveraging this novel theory to optimize the diagnostic process using multiple Large Language Models (LLMs) in a structured debate framework. Our empirical study verifies EVINCE to be effective in achieving its design goals.
翻訳日:2024-05-30 00:20:06 公開日:2024-05-28
# 地理的コロケーションは重要か? : 新型コロナウイルス感染時の公衆衛生会話を事例として

Does Geo-co-location Matter? A Case Study of Public Health Conversations during COVID-19 ( http://arxiv.org/abs/2405.17710v1 )

ライセンス: Link先を確認
Paiheng Xu, Louiqa Raschid, Vanessa Frias-Martinez, (参考訳) Twitter(現在のX)のようなソーシャルメディアプラットフォームは、特に新型コロナウイルス(COVID-19)の間、情報発信や公的なエンゲージメントにおいて重要な役割を担っている。 公衆衛生の専門家にとって重要な目標は、マスキングや社交距離といった地域的な成果に影響を及ぼす社会行動を促進することである。 本研究の目的は,局所的なエンゲージメントがソーシャルメディアの会話に与える影響を分析することである。 本研究では,公共衛生専門家(PHE)と公衆の地域的関わりがソーシャルメディアに与える影響について検討した。 2020年1月から2021年11月までのTwitterの会話データセットを分析し、500近いPHEから19万件以上のツイートと350万件の参加者から約800万件の回答を得た。 その結果,ジオコロケーションは,特にマスキング,ロックダウン,教育などの話題に関する会話や,学術・医学専門家との会話において,高いエンゲージメント率と関連していることが明らかとなった。 感情と個人の経験に関連する語彙的特徴は、地理的に共同配置された文脈においてより一般的であった。 この研究は、地理的コロケーションがソーシャルメディアのエンゲージメントにどのように影響するかを洞察し、公衆衛生メッセージングを改善するための戦略を通知する。

Social media platforms like Twitter (now X) have been pivotal in information dissemination and public engagement, especially during COVID-19. A key goal for public health experts was to encourage prosocial behavior that could impact local outcomes such as masking and social distancing. Given the importance of local news and guidance during COVID-19, the objective of our research is to analyze the effect of localized engagement, on social media conversations. This study examines the impact of geographic co-location, as a proxy for localized engagement between public health experts (PHEs) and the public, on social media. We analyze a Twitter conversation dataset from January 2020 to November 2021, comprising over 19 K tweets from nearly five hundred PHEs, along with approximately 800 K replies from 350 K participants. Our findings reveal that geo-co-location is associated with higher engagement rates, especially in conversations on topics including masking, lockdowns, and education, and in conversations with academic and medical professionals. Lexical features associated with emotion and personal experiences were more common in geo-co-located contexts. This research provides insights into how geographic co-location influences social media engagement and can inform strategies to improve public health messaging.
翻訳日:2024-05-29 22:51:42 公開日:2024-05-28
# データのCLAIM: コンテキスト大言語モデルによるインプット精度の向上

CLAIM Your Data: Enhancing Imputation Accuracy with Contextual Large Language Models ( http://arxiv.org/abs/2405.17712v1 )

ライセンス: Link先を確認
Ahatsham Hayat, Mohammad Rashedul Hasan, (参考訳) 本稿では,事前学習された大規模言語モデル(LLM)の拡張的知識と推論能力を利用して,表付きデータセットの欠落したデータ問題に対処する新しい戦略であるCLAIMについて紹介する。 数値推定に大きく依存する従来の計算法とは異なり、CLAIMは文脈的に関係のある自然言語記述子を用いて、不足した値を埋める。 このアプローチは、データセットをLLMの機能に本質的に整合した自然言語のコンテキスト化されたフォーマットに変換することで、LLMの二重使用を容易にする。 多様なデータセットや欠落パターンに対する評価は,既存の計算手法よりもCLAIMの方が優れた性能を示している。 さらに,不足データに対する文脈特化と汎用記述子の有効性について検討した結果,データ計算におけるLLMの性能向上における文脈精度の重要性が示唆された。 結果は、データ分析と機械学習モデルの信頼性と品質を著しく向上させるCLAIMの可能性を強調し、欠落したデータを扱うためのより微妙で効果的なソリューションを提供する。

This paper introduces the Contextual Language model for Accurate Imputation Method (CLAIM), a novel strategy that capitalizes on the expansive knowledge and reasoning capabilities of pre-trained large language models (LLMs) to address missing data challenges in tabular datasets. Unlike traditional imputation methods, which predominantly rely on numerical estimations, CLAIM utilizes contextually relevant natural language descriptors to fill missing values. This approach transforms datasets into natural language contextualized formats that are inherently more aligned with LLMs' capabilities, thereby facilitating the dual use of LLMs: first, to generate missing value descriptors, and then, to fine-tune the LLM on the enriched dataset for improved performance in downstream tasks. Our evaluations across diverse datasets and missingness patterns reveal CLAIM's superior performance over existing imputation techniques. Furthermore, our investigation into the effectiveness of context-specific versus generic descriptors for missing data highlights the importance of contextual accuracy in enhancing LLM performance for data imputation. The results underscore CLAIM's potential to markedly improve the reliability and quality of data analysis and machine learning models, offering a more nuanced and effective solution for handling missing data.
翻訳日:2024-05-29 22:51:42 公開日:2024-05-28
# 変化と影響のあるリワード機能を備えたAIアライメント

AI Alignment with Changing and Influenceable Reward Functions ( http://arxiv.org/abs/2405.17713v1 )

ライセンス: Link先を確認
Micah Carroll, Davis Foote, Anand Siththaranjan, Stuart Russell, Anca Dragan, (参考訳) 既存のAIアライメントアプローチは、好みは静的であり、非現実的である、と仮定する。 静的な嗜好を誤って仮定する結果を明らかにするため、我々は、好みの変化を明示的にモデル化し、AIがそれらに与える影響をモデル化する動的リワードマルコフ決定プロセス(DR-MDP)を導入する。 その利便性にもかかわらず、静的推論の仮定は既存のアライメント手法の健全性を損なう可能性があり、ユーザーが本当に望まない方法でユーザーの好みに影響を与えるAIシステムに暗黙の報酬を与える。 その後、潜在的な解決策を探求する。 まず、エージェントの最適化の地平線が、望ましくないAIの影響を部分的に軽減する方法について、統一的な視点を提供する。 そして、AIアライメントのさまざまな概念を定式化し、最初からの好みの変化を考慮に入れます。 このようなアライメントの8つの概念の強みと限界を比較すると、彼らは皆、望ましくないAIの影響を誘発するか、過度にリスクを回避し、好みを変える問題に対する直接的な解決策が存在しないことを示唆している。 現実世界の設定で好みを変えることを避けることはできないため、これらの問題に注意、リスクのバランス、能力で対処することがより重要になります。 私たちは、私たちの仕事が概念的明確性を提供し、人間の好みの変化と影響力のある性質を明示的に説明(そして対立)するAIアライメントプラクティスへの第一歩になることを期待しています。

Existing AI alignment approaches assume that preferences are static, which is unrealistic: our preferences change, and may even be influenced by our interactions with AI systems themselves. To clarify the consequences of incorrectly assuming static preferences, we introduce Dynamic Reward Markov Decision Processes (DR-MDPs), which explicitly model preference changes and the AI's influence on them. We show that despite its convenience, the static-preference assumption may undermine the soundness of existing alignment techniques, leading them to implicitly reward AI systems for influencing user preferences in ways users may not truly want. We then explore potential solutions. First, we offer a unifying perspective on how an agent's optimization horizon may partially help reduce undesirable AI influence. Then, we formalize different notions of AI alignment that account for preference change from the outset. Comparing the strengths and limitations of 8 such notions of alignment, we find that they all either err towards causing undesirable AI influence, or are overly risk-averse, suggesting that a straightforward solution to the problems of changing preferences may not exist. As there is no avoiding grappling with changing preferences in real-world settings, this makes it all the more important to handle these issues with care, balancing risks and capabilities. We hope our work can provide conceptual clarity and constitute a first step towards AI alignment practices which explicitly account for (and contend with) the changing and influenceable nature of human preferences.
翻訳日:2024-05-29 22:51:42 公開日:2024-05-28
# AdapNet:低品質画像検索のための適応型ノイズベースネットワーク

AdapNet: Adaptive Noise-Based Network for Low-Quality Image Retrieval ( http://arxiv.org/abs/2405.17718v1 )

ライセンス: Link先を確認
Sihe Zhang, Qingdong He, Jinlong Peng, Yuxi Li, Zhengkai Jiang, Jiafu Wu, Mingmin Chi, Yabiao Wang, Chengjie Wang, (参考訳) 画像検索は、与えられたクエリ画像を使用して、データベース内で視覚的に類似した画像を特定することを目的としている。 従来の手法では、マッチングのために画像から抽出された大域的特徴と局所的特徴の両方を使用し、精度を高めるために再分類技術を適用することもある。 しかし,これらの手法は,自然要因や人為要因から生じる問合せ画像のノイズを考慮できないことが多く,検索性能に悪影響を及ぼす。 この問題を軽減するために,低品質画像検索のための新しい設定を導入し,ロバストな抽象表現を学習するための適応ノイズベースネットワーク(AdapNet)を提案する。 具体的には、入力画像の様々な低品質要因を補うために訓練された品質補償ブロックを考案する。 さらに、画像品質に応じて勾配にフォーカスを動的に調整し、トレーニング中に未知の雑音サンプルの学習を増強し、クラス内コンパクト性を高める、革新的な適応ノイズベース損失関数を導入する。 この性能を評価するために,標準のRevisited OxfordとRevisited Parisのデータセット上で,クリーンなクエリ画像に様々な種類のノイズを適用して構築した,低品質なクエリを持つ2つのデータセットを構築した。 総合的な実験的結果は、AdapNetが高品質なデータセットの競合性能を維持しながら、Noss Revisited OxfordとNoss Revisited Parisベンチマークの最先端の手法を超越していることを示している。 コードと構築されたデータセットが利用可能になる。

Image retrieval aims to identify visually similar images within a database using a given query image. Traditional methods typically employ both global and local features extracted from images for matching, and may also apply re-ranking techniques to enhance accuracy. However, these methods often fail to account for the noise present in query images, which can stem from natural or human-induced factors, thereby negatively impacting retrieval performance. To mitigate this issue, we introduce a novel setting for low-quality image retrieval, and propose an Adaptive Noise-Based Network (AdapNet) to learn robust abstract representations. Specifically, we devise a quality compensation block trained to compensate for various low-quality factors in input images. Besides, we introduce an innovative adaptive noise-based loss function, which dynamically adjusts its focus on the gradient in accordance with image quality, thereby augmenting the learning of unknown noisy samples during training and enhancing intra-class compactness. To assess the performance, we construct two datasets with low-quality queries, which is built by applying various types of noise on clean query images on the standard Revisited Oxford and Revisited Paris datasets. Comprehensive experimental results illustrate that AdapNet surpasses state-of-the-art methods on the Noise Revisited Oxford and Noise Revisited Paris benchmarks, while maintaining competitive performance on high-quality datasets. The code and constructed datasets will be made available.
翻訳日:2024-05-29 22:51:42 公開日:2024-05-28
# EgoNCE++: Egocentric Video-Language Modelsは手動オブジェクトのインタラクションを本当に理解しているか?

EgoNCE++: Do Egocentric Video-Language Models Really Understand Hand-Object Interactions? ( http://arxiv.org/abs/2405.17719v1 )

ライセンス: Link先を確認
Boshen Xu, Ziheng Wang, Yang Du, Sipeng Zheng, Zhinan Song, Qin Jin, (参考訳) エゴセントリック・ビデオ言語事前学習は、エゴセントリック・ハンドオブジェクト・インタラクション(EgoHOI)の学習を促進する重要なパラダイムである。 既存のテストベッドで大きな成功を収めたにもかかわらず、これらのベンチマークはクローズドセットのビジュアルコンセプトや限られたシナリオに重点を置いている。 実世界における多様なEgoHOIの出現により,エゴ中心型ビデオ言語モデル(EgoVLM)の細粒度概念における性能の低下を明らかにするために,EgoHOIBenchというオープン語彙ベンチマークを提案する。 この性能ギャップは、現在の手法における時間的ダイナミクスよりも、オブジェクトの理解に強い偏見ときめ細かな監督が不十分なためである。 これらの問題に対処するために,EgoNCE++ という新しい非対称のコントラスト目的を導入した。 ビデオ・トゥ・テキスト・ロスでは,大言語モデルのテキスト内学習を活用し,HOI関連の単語置換を行うことにより,否定的なキャプションを生成することによってテキストの監督を強化する。 テキストとビデオの損失に対して、同じ名詞でビデオ表現を集約するオブジェクト中心のポジティブなビデオサンプリング戦略を提案する。 我々の広範な実験により、EgoNCE++は、オープン語彙HOI認識、マルチインスタンス検索、および様々なエゴセントリックモデルにおけるアクション認識タスクを大幅に向上し、最大+26.55%の改善が示されている。 私たちのコードはhttps://github.com/xuboshen/EgoNCEpp.comから入手可能です。

Egocentric video-language pretraining is a crucial paradigm to advance the learning of egocentric hand-object interactions (EgoHOI). Despite the great success on existing testbeds, these benchmarks focus more on closed-set visual concepts or limited scenarios. Due to the occurrence of diverse EgoHOIs in the real world, we propose an open-vocabulary benchmark named EgoHOIBench to reveal the diminished performance of current egocentric video-language models (EgoVLM) on fined-grained concepts, indicating that these models still lack a full spectrum of egocentric understanding. We attribute this performance gap to insufficient fine-grained supervision and strong bias towards understanding objects rather than temporal dynamics in current methods. To tackle these issues, we introduce a novel asymmetric contrastive objective for EgoHOI named EgoNCE++. For video-to-text loss, we enhance text supervision through the generation of negative captions by leveraging the in-context learning of large language models to perform HOI-related word substitution. For text-to-video loss, we propose an object-centric positive video sampling strategy that aggregates video representations by the same nouns. Our extensive experiments demonstrate that EgoNCE++ significantly boosts open-vocabulary HOI recognition, multi-instance retrieval, and action recognition tasks across various egocentric models, with improvements of up to +26.55%. Our code is available at https://github.com/xuboshen/EgoNCEpp.
翻訳日:2024-05-29 22:51:42 公開日:2024-05-28
# MindFormer:fMRIによるマルチオブジェクト脳デコーディングのためのトランスフォーマアーキテクチャ

MindFormer: A Transformer Architecture for Multi-Subject Brain Decoding via fMRI ( http://arxiv.org/abs/2405.17720v1 )

ライセンス: Link先を確認
Inhwa Han, Jaayeon Lee, Jong Chul Ye, (参考訳) 神経信号を理解するための研究は長年続けられており、fMRI信号からの視覚的復号が注目されている。 特に、画像拡散モデルの出現により、fMRIデータからの画像の再構成が大幅に進んだ。 しかし、既存の手法では、再構成された画像に被写体間と被写体間の違いを導入し、精度を損なうことがある。 マルチオブジェクト脳デコーディングにおける現在の限界に対処するために,MindFormerと呼ばれる新しいトランスフォーマーアーキテクチャを導入する。 このモデルは、安定拡散モデルの条件付けに使用できるfMRI条件の特徴ベクトルを生成するように設計されている。 より具体的に言えば、MindFormerは2つの重要なイノベーションを取り入れている。 1)fMRI信号から意味的に意味のある特徴を抽出するIP-Adapterに基づく新しいトレーニング戦略 2 fMRI信号の個人差を効果的に捉えつつ、複数の対象 fMRI データを相乗的に組み合わせた訓練用トークン及び線形層。 実験の結果,MindFormerと統合された安定拡散は,異なる対象に対して意味的に一貫した画像を生成することがわかった。 この機能は、マルチオブジェクト脳復号における既存のモデルを大幅に上回る。 このような進歩は、再建の精度を向上するだけでなく、個人間のニューラル処理のバリエーションの理解を深めます。

Research efforts to understand neural signals have been ongoing for many years, with visual decoding from fMRI signals attracting considerable attention. Particularly, the advent of image diffusion models has advanced the reconstruction of images from fMRI data significantly. However, existing approaches often introduce inter- and intra- subject variations in the reconstructed images, which can compromise accuracy. To address current limitations in multi-subject brain decoding, we introduce a new Transformer architecture called MindFormer. This model is specifically designed to generate fMRI-conditioned feature vectors that can be used for conditioning Stable Diffusion model. More specifically, MindFormer incorporates two key innovations: 1) a novel training strategy based on the IP-Adapter to extract semantically meaningful features from fMRI signals, and 2) a subject specific token and linear layer that effectively capture individual differences in fMRI signals while synergistically combines multi subject fMRI data for training. Our experimental results demonstrate that Stable Diffusion, when integrated with MindFormer, produces semantically consistent images across different subjects. This capability significantly surpasses existing models in multi-subject brain decoding. Such advancements not only improve the accuracy of our reconstructions but also deepen our understanding of neural processing variations among individuals.
翻訳日:2024-05-29 22:51:42 公開日:2024-05-28
# ClavaDDPM:クラスタ誘導拡散モデルを用いたマルチリレーショナルデータ合成

ClavaDDPM: Multi-relational Data Synthesis with Cluster-guided Diffusion Models ( http://arxiv.org/abs/2405.17724v1 )

ライセンス: Link先を確認
Wei Pang, Masoumeh Shafieinejad, Lucy Liu, Xi He, (参考訳) 表型データ合成の最近の研究は単一のテーブルに焦点を当てているが、現実のアプリケーションは数十から数百の相互接続テーブルを持つ複雑なデータを含むことが多い。 マルチリレーショナル(マルチテーブル)データを合成する以前のアプローチでは、より大きなデータセットのスケーラビリティと、異なるテーブルにまたがる属性間の相関など、長距離依存関係のキャプチャという、2つの重要な側面で不足していた。 グラフデータモデリングにおける拡散モデルの成功に触発されて、$\textbf{C}luster$ $\textbf{La}tent$ $\textbf{Va}riable$ $guided$ $\textbf{D}enoising$ $\textbf{D}iffusion$ $\textbf{P}robabilistic$ $\textbf{M}odels$ (ClavaDDPM)を導入する。 この新たなアプローチでは、クラスタリングラベルを中間体として活用して、特に外部キー制約に着目したテーブル間の関係をモデル化する。 ClavaDDPMは拡散モデルのロバストな生成能力を活用しながら、学習した潜伏変数をテーブル全体に伝播させる効率的なアルゴリズムを取り入れている。 これにより、ClavaDDPMは長距離依存関係を効果的にキャプチャできる。 さまざまなサイズのマルチテーブルデータセットに対する大規模な評価では、ClavaDDPMは、これらの長距離依存に対する既存のメソッドよりも大幅に優れており、シングルテーブルデータのユーティリティメトリクスに競争力がある。

Recent research in tabular data synthesis has focused on single tables, whereas real-world applications often involve complex data with tens or hundreds of interconnected tables. Previous approaches to synthesizing multi-relational (multi-table) data fall short in two key aspects: scalability for larger datasets and capturing long-range dependencies, such as correlations between attributes spread across different tables. Inspired by the success of diffusion models in tabular data modeling, we introduce $\textbf{C}luster$ $\textbf{La}tent$ $\textbf{Va}riable$ $guided$ $\textbf{D}enoising$ $\textbf{D}iffusion$ $\textbf{P}robabilistic$ $\textbf{M}odels$ (ClavaDDPM). This novel approach leverages clustering labels as intermediaries to model relationships between tables, specifically focusing on foreign key constraints. ClavaDDPM leverages the robust generation capabilities of diffusion models while incorporating efficient algorithms to propagate the learned latent variables across tables. This enables ClavaDDPM to capture long-range dependencies effectively. Extensive evaluations on multi-table datasets of varying sizes show that ClavaDDPM significantly outperforms existing methods for these long-range dependencies while remaining competitive on utility metrics for single-table data.
翻訳日:2024-05-29 22:51:42 公開日:2024-05-28
# 画像強調のためのカラーシフト推定と補正

Color Shift Estimation-and-Correction for Image Enhancement ( http://arxiv.org/abs/2405.17725v1 )

ライセンス: Link先を確認
Yiyu Li, Ke Xu, Gerhard Petrus Hancke, Rynson W. H. Lau, (参考訳) 準最適照明条件下で撮影された画像は、オーバー露光とアンダー露光の両方を含む可能性がある。 現在のアプローチは主に画像の明るさの調整に重点を置いており、露光の少ない領域では色調の歪みが悪化し、露光の過度な領域では正確な色を復元できない。 本研究は,非正規化領域と過剰発現領域が相互に異なる色調分布変化を示すことを観察し,通常「正規化」領域/ピクセルを参照として持たないため,共同モデリングでは正規化が困難であることを示す。 本稿では,これらの色変化を推定・補正する学習により,オーバー露光とアンダー露光の両方で画像を強化する新しい手法を提案する。 具体的には、まず、UNetベースのネットワークを介して、入力画像の鮮明化および暗化バージョンの色特徴マップを導出し、続いて擬似正規色特徴マップを生成する擬似正規色特徴生成器を作成した。 次に,得られた色特徴写像と擬似正規色特徴写像との間の色変化を推定する新しいCOSEモジュールを提案する。 COSEモジュールは、オーバー露光領域とアンダー露光領域の推定色変化を別々に補正する。 さらに,強調画像を生成するために,オーバー露光領域とアンダー露光領域の分離補正色を変調する新しいコラー変調 (COMO) モジュールを提案する。 総合実験により,本手法が既存手法より優れていることが示された。 プロジェクトWebページ: https://github.com/yiyulics/CSEC

Images captured under sub-optimal illumination conditions may contain both over- and under-exposures. Current approaches mainly focus on adjusting image brightness, which may exacerbate the color tone distortion in under-exposed areas and fail to restore accurate colors in over-exposed regions. We observe that under-exposed and over-exposed regions display opposite color tone distribution shifts with respect to each other, which may not be easily normalized in joint modeling as they usually do not have ``normal-exposed'' regions/pixels as reference. In this paper, we propose a novel method to enhance images with both over- and under-exposures by learning to estimate and correct such color shifts. Specifically, we first derive the color feature maps of the brightened and darkened versions of the input image via a UNet-based network, followed by a pseudo-normal feature generator to produce pseudo-normal color feature maps. We then propose a novel COlor Shift Estimation (COSE) module to estimate the color shifts between the derived brightened (or darkened) color feature maps and the pseudo-normal color feature maps. The COSE module corrects the estimated color shifts of the over- and under-exposed regions separately. We further propose a novel COlor MOdulation (COMO) module to modulate the separately corrected colors in the over- and under-exposed regions to produce the enhanced image. Comprehensive experiments show that our method outperforms existing approaches. Project webpage: https://github.com/yiyulics/CSEC.
翻訳日:2024-05-29 22:51:42 公開日:2024-05-28
# LLMによる全体的評価のファシリテート:シナリオベース実験からの考察

Facilitating Holistic Evaluations with LLMs: Insights from Scenario-Based Experiments ( http://arxiv.org/abs/2405.17728v1 )

ライセンス: Link先を確認
Toru Ishida, (参考訳) クリエイティビティを促進するためのワークショップコースが人気を集めている。 しかし,経験豊富な教員チームであっても,多様な視点で総合評価を行うことは困難である。 様々な評価を統合するためには適切な議論が不可欠であるが、大学はそのような検討の時間を欠いていることが多い。 議論のない平均スコアの導出は、全体的評価の目的を損なう。 本稿では,多様な教員評価を統合するためのファシリテータとして,LLM(Large Language Model)の利用について検討する。 シナリオに基づく実験は、LLMが多様な評価を合成し、基礎となる理論を学部に説明できるかどうかを決定するために行われた。 その結果, LLMは学部の議論を効果的に促進したことが明らかとなった。 さらにLLMは、学習したドメイン知識に基づいて、単一のシナリオから評価基準を一般化し作成する能力を示した。

Workshop courses designed to foster creativity are gaining popularity. However, achieving a holistic evaluation that accommodates diverse perspectives is challenging, even for experienced faculty teams. Adequate discussion is essential to integrate varied assessments, but faculty often lack the time for such deliberations. Deriving an average score without discussion undermines the purpose of a holistic evaluation. This paper explores the use of a Large Language Model (LLM) as a facilitator to integrate diverse faculty assessments. Scenario-based experiments were conducted to determine if the LLM could synthesize diverse evaluations and explain the underlying theories to faculty. The results were noteworthy, showing that the LLM effectively facilitated faculty discussions. Additionally, the LLM demonstrated the capability to generalize and create evaluation criteria from a single scenario based on its learned domain knowledge.
翻訳日:2024-05-29 22:51:42 公開日:2024-05-28
# 階層的行動認識 : 階層的相互作用を用いたコントラスト的ビデオ言語アプローチ

Hierarchical Action Recognition: A Contrastive Video-Language Approach with Hierarchical Interactions ( http://arxiv.org/abs/2405.17729v1 )

ライセンス: Link先を確認
Rui Zhang, Shuailong Li, Junxiao Xue, Feng Lin, Qing Zhang, Xiao Ma, Xiaoran Yan, (参考訳) ビデオ認識は依然としてオープンな課題であり、ビデオ内の多様なコンテンツカテゴリーを識別する必要がある。 主流のアプローチはしばしば平坦な分類を行い、本質的な階層構造に関連するカテゴリを見渡す。 そこで本稿では,階層型音声認識の新たな課題を定式化し,階層型認識に適したビデオ言語学習フレームワークを提案する。 具体的には,階層的カテゴリ間の依存関係を符号化し,認識予測にトップダウン制約を適用した。 さらに、脳卒中患者のリハビリテーションのための医療評価に基づく、新たな詳細なデータセットを構築し、階層的認識のための挑戦的なベンチマークとして機能する。 広範にわたる実験を通じて,従来手法,特に細粒度サブカテゴリよりも優れていた階層認識に対するアプローチの有効性を実証した。 提案するフレームワークは,ビデオ理解タスクにおける階層的モデリングの道を開くもので,フラットな分類を超えている。

Video recognition remains an open challenge, requiring the identification of diverse content categories within videos. Mainstream approaches often perform flat classification, overlooking the intrinsic hierarchical structure relating categories. To address this, we formalize the novel task of hierarchical video recognition, and propose a video-language learning framework tailored for hierarchical recognition. Specifically, our framework encodes dependencies between hierarchical category levels, and applies a top-down constraint to filter recognition predictions. We further construct a new fine-grained dataset based on medical assessments for rehabilitation of stroke patients, serving as a challenging benchmark for hierarchical recognition. Through extensive experiments, we demonstrate the efficacy of our approach for hierarchical recognition, significantly outperforming conventional methods, especially for fine-grained subcategories. The proposed framework paves the way for hierarchical modeling in video understanding tasks, moving beyond flat categorization.
翻訳日:2024-05-29 22:51:42 公開日:2024-05-28
# MMPareto:無害なユニモーダル支援によるマルチモーダル学習の促進

MMPareto: Boosting Multimodal Learning with Innocent Unimodal Assistance ( http://arxiv.org/abs/2405.17730v1 )

ライセンス: Link先を確認
Yake Wei, Di Hu, (参考訳) 対象とする一助学習目標を持つマルチモーダル学習法は,不均衡なマルチモーダル学習問題を緩和する上で,優れた効果を示した。 しかし,本論文では,マルチモーダル学習目標と非モーダル学習目標との従来無視されていた勾配の矛盾を同定し,アンモーダルエンコーダの最適化を誤解させる可能性がある。 これらの矛盾をうまく低減するため, マルチモーダル損失と単一モーダル損失の差を観察し, より容易で学習しやすいマルチモーダル損失の勾配の大きさと共分散が, 単モーダル損失よりも小さいことを示した。 この特性により,マルチモーダルシナリオ下でのPareto統合の解析とMMParetoアルゴリズムを提案する。 最後に、多種多様なモーダル性および密接な相互モーダル相互作用を持つフレームワークを用いた実験は、我々の優れた拡張可能なメソッド性能を示している。 また,タスクの難易度に明確な相違があるマルチタスクのケースを容易にし,その理想的なスケーラビリティを示すことが期待されている。 ソースコードとデータセットはhttps://github.com/GeWu-Lab/MMPareto_ICML2024で公開されている。

Multimodal learning methods with targeted unimodal learning objectives have exhibited their superior efficacy in alleviating the imbalanced multimodal learning problem. However, in this paper, we identify the previously ignored gradient conflict between multimodal and unimodal learning objectives, potentially misleading the unimodal encoder optimization. To well diminish these conflicts, we observe the discrepancy between multimodal loss and unimodal loss, where both gradient magnitude and covariance of the easier-to-learn multimodal loss are smaller than the unimodal one. With this property, we analyze Pareto integration under our multimodal scenario and propose MMPareto algorithm, which could ensure a final gradient with direction that is common to all learning objectives and enhanced magnitude to improve generalization, providing innocent unimodal assistance. Finally, experiments across multiple types of modalities and frameworks with dense cross-modal interaction indicate our superior and extendable method performance. Our method is also expected to facilitate multi-task cases with a clear discrepancy in task difficulty, demonstrating its ideal scalability. The source code and dataset are available at https://github.com/GeWu-Lab/MMPareto_ICML2024.
翻訳日:2024-05-29 22:51:42 公開日:2024-05-28
# C$^{3}$Bench: 大規模言語モデルのための包括的古典中国語理解ベンチマーク

C$^{3}$Bench: A Comprehensive Classical Chinese Understanding Benchmark for Large Language Models ( http://arxiv.org/abs/2405.17732v1 )

ライセンス: Link先を確認
Jiahuan Cao, Yongxin Shi, Dezhi Peng, Yang Liu, Lianwen Jin, (参考訳) 古典中国語理解(CCU)は、中国の卓越した文化の保存と探索に重要な価値を持っている。 近年,CCUにおけるLarge Language Models (LLMs) の可能性を活用しようと試みている。 しかし、LLMのCCU機能を評価するための包括的なベンチマークは提供されていない。 このギャップを埋めるために、C$^{3}$benchは、分類、検索、名前付きエンティティ認識、句読点、翻訳を含む5つの主要なCCUタスクに対して50,000のテキストペアからなる、包括的古典中国語理解ベンチマークである。 さらに、C$^{3}$benchのデータは10の異なる領域から生まれ、古典中国語のカテゴリの大半をカバーしている。 提案した C$^{3}$bench を用いて,5つのCCU タスクすべてに対する15の代表的な LLM の定量的性能を広範囲に評価した。 LLMのCCU機能の公開リーダボードを確立するだけでなく,いくつかの知見を得た。 具体的には、既存のLLMはCCUタスクに苦戦しており、教師付きモデルに劣っている。 さらに、CCUは特別な注意を要するタスクであることを示す。 この研究は、LCMベースのCCU研究の将来的な進歩のための標準ベンチマーク、包括的ベースライン、および貴重な洞察を提供することができると信じている。 評価パイプラインとデータセットは \url{https://github.com/SCUT-DLVCLab/C3bench} で公開されている。

Classical Chinese Understanding (CCU) holds significant value in preserving and exploration of the outstanding traditional Chinese culture. Recently, researchers have attempted to leverage the potential of Large Language Models (LLMs) for CCU by capitalizing on their remarkable comprehension and semantic capabilities. However, no comprehensive benchmark is available to assess the CCU capabilities of LLMs. To fill this gap, this paper introduces C$^{3}$bench, a Comprehensive Classical Chinese understanding benchmark, which comprises 50,000 text pairs for five primary CCU tasks, including classification, retrieval, named entity recognition, punctuation, and translation. Furthermore, the data in C$^{3}$bench originates from ten different domains, covering most of the categories in classical Chinese. Leveraging the proposed C$^{3}$bench, we extensively evaluate the quantitative performance of 15 representative LLMs on all five CCU tasks. Our results not only establish a public leaderboard of LLMs' CCU capabilities but also gain some findings. Specifically, existing LLMs are struggle with CCU tasks and still inferior to supervised models. Additionally, the results indicate that CCU is a task that requires special attention. We believe this study could provide a standard benchmark, comprehensive baselines, and valuable insights for the future advancement of LLM-based CCU research. The evaluation pipeline and dataset are available at \url{https://github.com/SCUT-DLVCLab/C3bench}.
翻訳日:2024-05-29 22:51:42 公開日:2024-05-28
# 矛盾とキュリオシティ : ケントによるマカネス批判--Galley--Müller derivation of the Quantum Measurement Postulates

Contradictions or Curiosities? On Kent's Critique of the Masanes--Galley--Müller Derivation of the Quantum Measurement Postulates ( http://arxiv.org/abs/2405.17733v1 )

ライセンス: Link先を確認
Blake C. Stacey, (参考訳) エイドリアン・ケントは近年、量子力学の仮定に関するマカネス、ガレー、M\'ullerの業績を批判している。 MGMはケントの批判には2つの矛盾があると主張している。 他の前提が加えられない限り、私はどちらも真の矛盾ではないと論じます。

Adrian Kent has recently criticized Masanes, Galley and M\"uller's work on postulates for quantum mechanics. MGM claim to find two contradictions in Kent's criticism. I argue that neither is a true contradiction unless some other premise is added.
翻訳日:2024-05-29 22:41:57 公開日:2024-05-28
# 費用対効果の低いクラスレート推定による効果的な災害対応に向けて : ナイマン配置成層学習によるアクティブラーニング

Towards Efficient Disaster Response via Cost-effective Unbiased Class Rate Estimation through Neyman Allocation Stratified Sampling Active Learning ( http://arxiv.org/abs/2405.17734v1 )

ライセンス: Link先を確認
Yanbing Bai, Xinyi Wu, Lai Xu, Jihan Pei, Erick Mas, Shunichi Koshimura, (参考訳) 地球観測技術の急速な発展に伴い、我々は大量の衛星リモートセンシングデータの時代に入った。 しかし、大量の衛星リモートセンシングデータがラベルを欠いているか、ラベルコストが高すぎて、AI技術が衛星データをマイニングする可能性を妨げる。 特に、衛星データを用いて災害被害の程度を評価する緊急対応シナリオ。 災害被害評価は、特定の地理的空間や大規模の特定地域において、特定の建物の被害に過度に焦点が当てられているため、ボトルネックに遭遇した。 実際、災害緊急対応の初期の段階では、政府省は1棟の被害ではなく、災害地域の全体的被害率を懸念しており、政府の緊急対応のレベル決定に役立っている。 本稿では,二分分類のための階層化ランダムサンプリング木を構築し,この手法を多クラス問題に拡張する革新的なアルゴリズムを提案する。 様々なデータセットやモデル構造に関する広範な実験を通じて,本手法は,単純なサンプリングのアノテーションコストの30~60パーセントに留まらず,クラスレート推定とモデル強化の両面で,受動的および従来型のアクティブラーニング手法を超越していることを示す。 従来のアクティブな学習戦略における"サンプリングバイアス"の課題に効果的に対処し、"コールドスタート"ジレンマを緩和します。 提案手法の有効性は,Xview2衛星画像を用いた災害評価タスクに適用することでさらに実証され,実環境における実用性を示す。

With the rapid development of earth observation technology, we have entered an era of massively available satellite remote-sensing data. However, a large amount of satellite remote sensing data lacks a label or the label cost is too high to hinder the potential of AI technology mining satellite data. Especially in such an emergency response scenario that uses satellite data to evaluate the degree of disaster damage. Disaster damage assessment encountered bottlenecks due to excessive focus on the damage of a certain building in a specific geographical space or a certain area on a larger scale. In fact, in the early days of disaster emergency response, government departments were more concerned about the overall damage rate of the disaster area instead of single-building damage, because this helps the government decide the level of emergency response. We present an innovative algorithm that constructs Neyman stratified random sampling trees for binary classification and extends this approach to multiclass problems. Through extensive experimentation on various datasets and model structures, our findings demonstrate that our method surpasses both passive and conventional active learning techniques in terms of class rate estimation and model enhancement with only 30\%-60\% of the annotation cost of simple sampling. It effectively addresses the 'sampling bias' challenge in traditional active learning strategies and mitigates the 'cold start' dilemma. The efficacy of our approach is further substantiated through application to disaster evaluation tasks using Xview2 Satellite imagery, showcasing its practical utility in real-world contexts.
翻訳日:2024-05-29 22:41:57 公開日:2024-05-28
# 最適複合パルスを用いたフォノン数測定

Phonon Number Measurement Using Optimal Composite Pulses ( http://arxiv.org/abs/2405.17736v1 )

ライセンス: Link先を確認
Xie-Qian Li, Ping-Xing Chen, (参考訳) レーザー冷却したイオンのフォノン数を測定することは、イオンが基底状態にあるかどうかを評価するのに必須のステップである。 現在、実験で一般的に使われている方法は、赤から青へのサイドバンド比と断熱的進化のレッドサイドバンド法である。 理論的には、状態進化の適合を必要とせず、選択されたフォック状態の集団を直接測定できる複合パルスを用いた手法を提案する。 これは、断熱的進化のレッドサイドバンド法と直接比較して、フォック状態のより高い個体数を測定することができる。 我々は、合成パルスのユニタリ演算の忠実度を改善するために、量子最適制御法を用いる。 量子最適制御技術では、レーザー強度が強く、多くの近似が不要であり、ゲートの忠実度をさらに改善できる状況について議論できる。 次に, 高精度に測定結果を修正し, 高いFock状態測定への適用例を示す。

Measuring the phonon number of the laser-cooled ions is an indispensable step in evaluating whether an ion is in ground state. At present, commonly used methods in the experiments are red-to-blue sideband ratios and adiabatic evolution red-sideband methods. We theoretically propose a method using composite pulses which does not need a fit of state evolution and can directly measure the population of the selected Fock state. It can measure higher Fock state population more directly comparing with the adiabatic evolution red-sideband method. We use quantum optimal control method to improve the fidelity of unitary operation of the composite pulses. With quantum optimal control technology, we can discuss the situation where the laser strength is strong, and many approximations will not be necessary, where the gate fidelity can be further improved. Then we give a method to modify the measurement result for a higher accuracy which has a good performance, and we give an example to illustrate its application on high Fock state measurement.
翻訳日:2024-05-29 22:41:57 公開日:2024-05-28
# HTTP Garden:リクエストストリームの差分ファズリングによるHTTP/1.1実装における解析脆弱性の発見

The HTTP Garden: Discovering Parsing Vulnerabilities in HTTP/1.1 Implementations by Differential Fuzzing of Request Streams ( http://arxiv.org/abs/2405.17737v1 )

ライセンス: Link先を確認
Ben Kallus, Prashant Anantharaman, Michael Locasto, Sean W. Smith, (参考訳) HTTP/1.1で不一致を解析することは、Webサーバに対する数多くの攻撃の基盤となっている。 HTTP解析の相違を発見するためのこれまでのテクニックは、HTTPゲートウェイサーバのブラックボックス差分テストに重点を置いていた。 これらのテクニックはいくつかの脆弱性を検出することができるが、ゲートウェイサーバのアウトプットのみを調べることで、不一致に関連する脆弱性を解析するすべてのことが検出できるわけではない。 我々のシステムであるHTTP Gardenは、元のサーバの解釈とHTTPリクエストのゲートウェイサーバの変換の両方を調べます。 リクエストストリームのすべてのコンポーネントを変更可能なHTTP/1.1オリジンサーバ用のカバレッジガイド付き差分ファズーも備えており、対話型REPLと組み合わせることで、有意義なHTTP解析の不一致の自動発見と、これらの不一致を攻撃ペイロードに迅速に展開することを可能にする。 私たちのツールを使って、人気のあるWebサーバで100以上のHTTPパースバグを発見し、報告しました。 これらのうち39は、悪用可能であると指定します。 私たちは、研究者がHTTP/1.1サーバに対する新しいパーサの差異に基づく攻撃を調査できるように、無償のソフトウェアライセンスの下で、HTTP GardenをGitHubに公開しました。

HTTP/1.1 parsing discrepancies have been the basis for numerous classes of attacks against web servers. Previous techniques for discovering HTTP parsing discrepancies have focused on blackbox differential testing of HTTP gateway servers, despite evidence that the most significant parsing anomalies occur within origin servers. While these techniques can detect some vulnerabilities, not all parsing discrepancy-related vulnerabilities are detectable by examining a gateway server's output alone. Our system, the HTTP Garden, examines both origin servers' interpretations and gateway servers' transformations of HTTP requests. It also includes a coverage-guided differential fuzzer for HTTP/1.1 origin servers that is capable of mutating all components of a request stream, paired with an interactive REPL that facilitates the automatic discovery of meaningful HTTP parsing discrepancies and the rapid development of those discrepancies into attack payloads. Using our tool, we have discovered and reported over 100 HTTP parsing bugs in popular web servers, of which 68 have been fixed following our reports. We designate 39 of these to be exploitable. We release the HTTP Garden to the public on GitHub under a free software license to allow researchers to further explore new parser discrepancy-based attacks against HTTP/1.1 servers.
翻訳日:2024-05-29 22:41:57 公開日:2024-05-28
# The Widening Gap: 初心者プログラマのための生成AIのメリットとハーム

The Widening Gap: The Benefits and Harms of Generative AI for Novice Programmers ( http://arxiv.org/abs/2405.17739v1 )

ライセンス: Link先を確認
James Prather, Brent Reeves, Juho Leinonen, Stephen MacNeil, Arisoa S. Randrianasolo, Brett Becker, Bailey Kimmel, Jared Wright, Ben Briggs, (参考訳) 初心者プログラマはメタ認知的認識と戦略の欠如により、しばしば問題解決に苦しむ。 これまでの研究によると、初心者はプログラミング中に複数のメタ認知障害に遭遇する可能性がある。 初心者は通常、これらの困難が彼らの進歩を妨げていることに気付いていません。 一方、多くの初心者がジェネレーティブAI(GenAI)を使ってプログラミングしており、ほとんどの導入プログラミング問題、コード提案、スタント時の次のステップのヒント、暗号化エラーメッセージの説明などに対する完全なソリューションを提供することができる。 初心者のメタ認知に対するその影響は、探求され始めたばかりである。 ここでは、初心者プログラミングの問題解決行動を調査し、GenAIツールを組み込むことでそれを拡張する以前の研究を再現する。 参加者の観察、インタビュー、視線追跡からなる21のラボセッションを通じて、初心者がGenAIツールでどのようにコーディングしているかを調査する。 21名の学生のうち20名が割り当てられたプログラミング問題を完成させたが、この発見は、加速した学生と苦労した学生の間で、GenAIツールの使用が不運な二分したことを示している。 加速した学生はGenAIを使って、すでに意図していたコードを作成でき、不正なインラインコード提案を無視することができた。 しかし、苦労した学生にとって、これまでに知られていたメタ認知障害は継続し、残念ながらGenAIはそれらを統合し、新しいメタ認知障害を発生させる可能性がある。 さらに,苦労した学生は,問題解決能力に対する認知的不協和感を呈し,能力の錯覚に終止符を打った。 両グループによる観察から、初歩的なGenAI体験を足場にし、今後の作業を提案する方法を提案する。

Novice programmers often struggle through programming problem solving due to a lack of metacognitive awareness and strategies. Previous research has shown that novices can encounter multiple metacognitive difficulties while programming. Novices are typically unaware of how these difficulties are hindering their progress. Meanwhile, many novices are now programming with generative AI (GenAI), which can provide complete solutions to most introductory programming problems, code suggestions, hints for next steps when stuck, and explain cryptic error messages. Its impact on novice metacognition has only started to be explored. Here we replicate a previous study that examined novice programming problem solving behavior and extend it by incorporating GenAI tools. Through 21 lab sessions consisting of participant observation, interview, and eye tracking, we explore how novices are coding with GenAI tools. Although 20 of 21 students completed the assigned programming problem, our findings show an unfortunate divide in the use of GenAI tools between students who accelerated and students who struggled. Students who accelerated were able to use GenAI to create code they already intended to make and were able to ignore unhelpful or incorrect inline code suggestions. But for students who struggled, our findings indicate that previously known metacognitive difficulties persist, and that GenAI unfortunately can compound them and even introduce new metacognitive difficulties. Furthermore, struggling students often expressed cognitive dissonance about their problem solving ability, thought they performed better than they did, and finished with an illusion of competence. Based on our observations from both groups, we propose ways to scaffold the novice GenAI experience and make suggestions for future work.
翻訳日:2024-05-29 22:41:57 公開日:2024-05-28
# MobileConvRec: モバイルアプリレコメンデーションのための会話データセット

MobileConvRec: A Conversational Dataset for Mobile Apps Recommendations ( http://arxiv.org/abs/2405.17740v1 )

ライセンス: Link先を確認
Srijata Maji, Moghis Fereidouni, Vinaik Chhetri, Umar Farooq, A. B. Siddique, (参考訳) 既存のレコメンデーションシステムは、2つのパラダイムに重点を置いている: 1-歴史的ユーザ-イテムインタラクションベースのレコメンデーションと2-会話レコメンデーション。 対話型レコメンデーションシステムは、ユーザとシステム間の自然言語対話を容易にし、ユーザがレコメンデーションを問い合わせたり、フィードバックを提供したりしながら、ユーザの明示的なニーズを喚起することを可能にする。 自然言語処理の大幅な進歩により、会話レコメンデーションシステムが注目されている。 既存の会話レコメンデーションデータセットは、それぞれの領域の研究を大いに促進してきた。 近年、モバイルユーザーやアプリの急増にもかかわらず、会話型モバイルアプリレコメンデーターシステムの研究は、かなりの制約に直面している。 この制限は主に、モバイルアプリに特化した高品質なベンチマークデータセットが欠如していることに起因する。 会話型モバイルアプリレコメンデーションの研究を容易にするために,MobileConvRecを紹介した。 MobileConvRecは、Google Playストア上のモバイルアプリとの実際のユーザインタラクションを活用することで、会話をシミュレートする。 提案した対話レコメンデーションデータセットは、暗黙のユーザ嗜好を反映したシーケンシャルなユーザとイテムのインタラクションと、包括的なマルチターン会話を併用して、明示的なユーザニーズを効果的に把握する。 MobileConvRecは、45のアプリカテゴリにまたがる12万以上のマルチターンレコメンデーション関連の会話で構成されている。 さらに、MobileConvRecは、パーミッションデータ、セキュリティとプライバシ関連の情報、アプリのバイナリ実行ファイルなど、各アプリに豊富なメタデータを提供する。 我々は,MobileConvRecが,いくつかの事前学習された大規模言語モデルの比較研究を通じて,対話型モバイルアプリレコメンデーションのための優れたテストベッドとして機能できることを実証した。

Existing recommendation systems have focused on two paradigms: 1- historical user-item interaction-based recommendations and 2- conversational recommendations. Conversational recommendation systems facilitate natural language dialogues between users and the system, allowing the system to solicit users' explicit needs while enabling users to inquire about recommendations and provide feedback. Due to substantial advancements in natural language processing, conversational recommendation systems have gained prominence. Existing conversational recommendation datasets have greatly facilitated research in their respective domains. Despite the exponential growth in mobile users and apps in recent years, research in conversational mobile app recommender systems has faced substantial constraints. This limitation can primarily be attributed to the lack of high-quality benchmark datasets specifically tailored for mobile apps. To facilitate research for conversational mobile app recommendations, we introduce MobileConvRec. MobileConvRec simulates conversations by leveraging real user interactions with mobile apps on the Google Play store, originally captured in large-scale mobile app recommendation dataset MobileRec. The proposed conversational recommendation dataset synergizes sequential user-item interactions, which reflect implicit user preferences, with comprehensive multi-turn conversations to effectively grasp explicit user needs. MobileConvRec consists of over 12K multi-turn recommendation-related conversations spanning 45 app categories. Moreover, MobileConvRec presents rich metadata for each app such as permissions data, security and privacy-related information, and binary executables of apps, among others. We demonstrate that MobileConvRec can serve as an excellent testbed for conversational mobile app recommendation through a comparative study of several pre-trained large language models.
翻訳日:2024-05-29 22:41:57 公開日:2024-05-28
# LoRA-Switch:System-Algorithm共設計による動的LLMアダプタの効率向上

LoRA-Switch: Boosting the Efficiency of Dynamic LLM Adapters via System-Algorithm Co-design ( http://arxiv.org/abs/2405.17741v1 )

ライセンス: Link先を確認
Rui Kong, Qiyang Li, Xinyu Fang, Qingtian Feng, Qingfeng He, Yazhu Dong, Weijun Wang, Yuanchun Li, Linghe Kong, Yunxin Liu, (参考訳) 近年の文献では、大規模言語モデル(LLM)をカスタマイズまたは改善するための効果的な方法は、低ランクアダプタ(LoRA)やMixture-of-Experts(MoE)構造などの動的アダプタを追加することである。 このような動的アダプタは、控えめな計算複雑性を発生させるが、驚くほど大きな推論遅延のオーバーヘッドを招き、復号速度を2.5倍も遅くする。 本稿では,動的アダプタの細粒度コストを解析し,断片化したCUDAカーネルコールが根本原因であることを示す。 そこで本稿では,効率的な動的アダプタのためのシステムアルゴリズムであるLoRA-Switchを提案する。 レイヤワイドまたはブロックワイドな動的ルーティングを採用する既存の動的構造とは異なり、LoRA-Switchはトークンワイドなルーティング機構を導入している。 トークンごとにLoRAアダプタとウェイトを切り替え、推論のためにそれらをバックボーンにマージする。 効率を上げるために、このスイッチングは最適化されたCUDAカーネルで実装され、同時に全てのLoRAアダプタのマージ操作を融合させる。 提案手法は,従来の動的アダプタと同様の精度向上を実現し,復号遅延を2.4回以上削減した。

Recent literature has found that an effective method to customize or further improve large language models (LLMs) is to add dynamic adapters, such as low-rank adapters (LoRA) with Mixture-of-Experts (MoE) structures. Though such dynamic adapters incur modest computational complexity, they surprisingly lead to huge inference latency overhead, slowing down the decoding speed by 2.5+ times. In this paper, we analyze the fine-grained costs of the dynamic adapters and find that the fragmented CUDA kernel calls are the root cause. Therefore, we propose LoRA-Switch, a system-algorithm co-designed architecture for efficient dynamic adapters. Unlike most existing dynamic structures that adopt layer-wise or block-wise dynamic routing, LoRA-Switch introduces a token-wise routing mechanism. It switches the LoRA adapters and weights for each token and merges them into the backbone for inference. For efficiency, this switching is implemented with an optimized CUDA kernel, which fuses the merging operations for all LoRA adapters at once. Based on experiments with popular open-source LLMs on common benchmarks, our approach has demonstrated similar accuracy improvement as existing dynamic adapters, while reducing the decoding latency by more than 2.4 times.
翻訳日:2024-05-29 22:41:57 公開日:2024-05-28
# ORLM:最適化モデリングのための大規模言語モデルのトレーニング

ORLM: Training Large Language Models for Optimization Modeling ( http://arxiv.org/abs/2405.17743v1 )

ライセンス: Link先を確認
Zhengyang Tang, Chenyu Huang, Xin Zheng, Shixi Hu, Zizhuo Wang, Dongdong Ge, Benyou Wang, (参考訳) 大規模言語モデル(LLM)は、最適化モデリングの自動化において複雑なオペレーションリサーチ(OR)のための強力なツールとして登場した。 しかし、現在の方法論はプロプライエタリなLCMとの迅速なエンジニアリング(マルチエージェントの協力など)に大きく依存しており、業界アプリケーションでは禁止される可能性のあるデータのプライバシに関する懸念を提起している。 この問題に対処するために、最適化モデリングのためのオープンソースのLLMのトレーニングを提案する。 OR LLMのトレーニングデータセットの4つの重要な要件を特定し,特定の要件に合わせた合成データを生成するための半自動プロセスであるOR-Instructを設計,実装する。 また、実世界のOR問題を解決する上でLLMをテストするための最初の産業ベンチマークであるIndustrialORベンチマークも導入した。 OR-Instruct のデータを 7b サイズの様々なオープンソース LLM (ORLMs と呼ぶ) に適用することにより,最適化モデルの性能を大幅に向上する。 我々は,NL4OPT,MAMO,IndustrialORベンチマークの最先端性能を実現する。 私たちのコードとデータは、 \url{https://github.com/Cardinal-Operations/ORLM}で公開されます。

Large Language Models (LLMs) have emerged as powerful tools for complex Operations Research (OR) in automating optimization modeling. However, current methodologies heavily rely on prompt engineering (e.g., multi-agent cooperation) with proprietary LLMs, raising data privacy concerns that could be prohibitive in industry applications. To tackle this issue, we propose training open-source LLMs for optimization modeling. We identify four critical requirements for the training dataset of OR LLMs, design and implement OR-Instruct, a semi-automated process for creating synthetic data tailored to specific requirements. We also introduce the IndustryOR benchmark, the first industrial benchmark for testing LLMs on solving real-world OR problems. We apply the data from OR-Instruct to various open-source LLMs of 7b size (termed as ORLMs), resulting in a significantly improved capability for optimization modeling. Our best-performing ORLM achieves state-of-the-art performance on the NL4OPT, MAMO, and IndustryOR benchmarks. Our code and data will be available at \url{https://github.com/Cardinal-Operations/ORLM}.
翻訳日:2024-05-29 22:41:57 公開日:2024-05-28
# バックドア緩和のためのプルーニング再考:最適化の視点から

Rethinking Pruning for Backdoor Mitigation: An Optimization Perspective ( http://arxiv.org/abs/2405.17746v1 )

ライセンス: Link先を確認
Nan Li, Haiyang Yu, Ping Yi, (参考訳) Deep Neural Networks(DNN)は、バックドア攻撃の脆弱性として知られており、信頼性の高いデプロイメントに対する脅威を訴えている。 最近の研究では、特定のニューロン群を刈り取ることで、感染したDNNからバックドアを消去できる一方で、これらのバックドア関連ニューロンを効果的に識別し、除去する方法がオープンな課題であることが明らかになっている。 既存の防御法のほとんどは定義された規則に頼っており、プルーニングポリシーの探索と最適化を無視してニューロンの局所的な性質に焦点をあてている。 このギャップに対処するために,グラフニューラルネットワーク(GNN)と強化学習(RL)を組み合わせたONP法を提案する。 具体的には、ONPはまず、ターゲットのDNNをニューロン接続に基づくグラフとしてモデル化し、次にGNNベースのRLエージェントを使用してグラフ埋め込みを学習し、適切なプルーニングポリシーを見つける。 我々の知る限りでは、これはGNNとRLをバックドアディフェンス分野におけるプルーニングポリシーの最適化に活用する最初の試みである。 実験により、少量のクリーンデータを用いて、ONPは、バックドア攻撃によって埋め込まれたバックドアニューロンを、無視できる性能劣化の犠牲にして効果的にプルークすることができることを示し、バックドア緩和のための新しい最先端のパフォーマンスを実現する。

Deep Neural Networks (DNNs) are known to be vulnerable to backdoor attacks, posing concerning threats to their reliable deployment. Recent research reveals that backdoors can be erased from infected DNNs by pruning a specific group of neurons, while how to effectively identify and remove these backdoor-associated neurons remains an open challenge. Most of the existing defense methods rely on defined rules and focus on neuron's local properties, ignoring the exploration and optimization of pruning policies. To address this gap, we propose an Optimized Neuron Pruning (ONP) method combined with Graph Neural Network (GNN) and Reinforcement Learning (RL) to repair backdoor models. Specifically, ONP first models the target DNN as graphs based on neuron connectivity, and then uses GNN-based RL agents to learn graph embeddings and find a suitable pruning policy. To the best of our knowledge, this is the first attempt to employ GNN and RL for optimizing pruning policies in the field of backdoor defense. Experiments show, with a small amount of clean data, ONP can effectively prune the backdoor neurons implanted by a set of backdoor attacks at the cost of negligible performance degradation, achieving a new state-of-the-art performance for backdoor mitigation.
翻訳日:2024-05-29 22:41:57 公開日:2024-05-28
# 多重バンド非エルミート系の擬エルミート位相

Pseudo-Hermitian Topology of Multiband Non-Hermitian Systems ( http://arxiv.org/abs/2405.17749v1 )

ライセンス: Link先を確認
Jung-Wan Ryu, Jae-Ho Han, Chang-Hwan Yi, Hee Chul Park, Moon Jip Park, (参考訳) 非エルミート系の複素アイジネギーと非直交固有状態は、エルミート系には現れない独自の位相現象を示す。 代表的な例として、非エルミート皮膚効果や例外点が挙げられる。 二次元パラメータ空間において、多バンド非エルミート系における非分離帯域の位相的分類は、置換の積が空間の例外的な点による状態交換を表すような置換群を呼び出すことによって確立することができる。 この研究において、多重バンドに対する非エルミート位相における擬エルミート線の役割を明らかにする。 現在の理解とは対照的に、非エルミートマルチバンドの非分離性は2次元空間の例外的な点なしで位相的に非自明である。 我々の研究は、非エルミート的マルチバンドシステムの基本的な包括的理解に基づいており、また、例外的な点を考慮せずに、非エルミート的システムの多元的応用と実現を提供する。

The complex eigenenergies and non-orthogonal eigenstates of non-Hermitian systems exhibit unique topological phenomena that cannot appear in Hermitian systems. Representative examples are the non-Hermitian skin effect and exceptional points. In a two-dimensional parameter space, topological classifications of non-separable bands in multiband non-Hermitian systems can be established by invoking a permutation group, where the product of the permutation represents state exchange due to exceptional points in the space. We unveil in this work the role of pseudo-Hermitian lines in non-Hermitian topology for multiple bands. Contrary to current understanding, the non-separability of non-Hermitian multibands can be topologically non-trivial without exceptional points in two-dimensional space. Our work builds on the fundamental and comprehensive understanding of non-Hermitian multiband systems and also offers versatile applications and realizations of non-Hermitian systems without the need to consider exceptional points.
翻訳日:2024-05-29 22:41:57 公開日:2024-05-28
# バックドアディフェンダーのためのマグニチュードベースニューロンプルーニング

Magnitude-based Neuron Pruning for Backdoor Defens ( http://arxiv.org/abs/2405.17750v1 )

ライセンス: Link先を確認
Nan Li, Haoyu Jiang, Ping Yi, (参考訳) Deep Neural Networks(DNN)は、バックドア攻撃の脆弱性として知られており、信頼性の高いデプロイメントに対する脅威を訴えている。 最近の研究では、特定のニューロン群を刈り取ることで、感染したDNNからバックドアを消去できる一方で、これらのバックドア関連ニューロンを効果的に識別し、除去する方法がオープンな課題であることが明らかになっている。 本稿では, バックドアの挙動とニューロンの大きさの相関について検討し, バックドアニューロンがモデルの大きさと精度の相関から逸脱していることを見出した。 この偏差は、バックドアニューロンの検出とプーンを行うために、Magnitude-based Neuron Pruning (MNP)法を提案するきっかけとなった。 具体的には、MNPは3等級誘導された目的関数を用いて、バックドアニューロンの等級・彩度相関を制御し、バックドアニューロンを除去し、クリーンニューロンをそれぞれ保存する目的を達成する。 実験により,最先端のバックドア防御性能を,クリーンなデータしか持たない様々なバックドア攻撃に対して達成し,バックドア防御を導く上で重要な役割を担っていることが示された。

Deep Neural Networks (DNNs) are known to be vulnerable to backdoor attacks, posing concerning threats to their reliable deployment. Recent research reveals that backdoors can be erased from infected DNNs by pruning a specific group of neurons, while how to effectively identify and remove these backdoor-associated neurons remains an open challenge. In this paper, we investigate the correlation between backdoor behavior and neuron magnitude, and find that backdoor neurons deviate from the magnitude-saliency correlation of the model. The deviation inspires us to propose a Magnitude-based Neuron Pruning (MNP) method to detect and prune backdoor neurons. Specifically, MNP uses three magnitude-guided objective functions to manipulate the magnitude-saliency correlation of backdoor neurons, thus achieving the purpose of exposing backdoor behavior, eliminating backdoor neurons and preserving clean neurons, respectively. Experiments show our pruning strategy achieves state-of-the-art backdoor defense performance against a variety of backdoor attacks with a limited amount of clean data, demonstrating the crucial role of magnitude for guiding backdoor defenses.
翻訳日:2024-05-29 22:41:57 公開日:2024-05-28
# XL3M:セグメントワイズ推論に基づくLLM長拡張のためのトレーニング不要フレームワーク

XL3M: A Training-free Framework for LLM Length Extension Based on Segment-wise Inference ( http://arxiv.org/abs/2405.17755v1 )

ライセンス: Link先を確認
Shengnan Wang, Youhui Bai, Lin Zhang, Pingyi Zhou, Shixiong Zhao, Gong Zhang, Sen Wang, Renhai Chen, Hua Xu, Hongwei Sun, (参考訳) 長大言語モデル(LLM)は最大トレーニング長よりも長いテキストへの一般化に失敗し、長い入力をストリーミングするシナリオにおけるLLMの適用を大幅に制限する。 この問題に対処するため、既存の手法は相当なコストを必要とするか、正確に損失を発生させるかのいずれかである。 本稿では, LLMの予測精度が精度と高い相関関係があることを実証的に見出した。 そこで本研究では,XL3M(超長大言語モデル)という名前の効率的な学習自由フレームワークを提案する。 XL3Mフレームワークの下では、入力コンテキストはまず複数の短いサブコンテキストに分解される。 すると、XL3M は各セグメントと `question'' の間の関連性を測定する方法を与え、関連するセグメントすべてを時系列順にスプライシングすることで、簡潔なキーコンテキストを構築する。 キーコンテキストは、推論タスクを完了するために、元のコンテキストの代わりにさらに使用される。 総合的なベンチマークによる評価は、XL3Mの優位性を示している。 我々のフレームワークを用いて、Llama2-7Bモデルは8カードのHuawei Ascend 910B NPUマシン上で、カードあたり64GBのメモリを持つ2000万の長いシーケンスを推論することができる。

Length generalization failure problem, namely the large language model (LLM) fails to generalize to texts longer than its maximum training length, greatly restricts the application of LLM in the scenarios with streaming long inputs. To address this problem, the existing methods either require substantial costs or introduce precision loss. In this paper, we empirically find that the accuracy of the LLM's prediction is highly correlated to its certainty. Based on this, we propose an efficient training free framework, named XL3M (it means extra-long large language model), which enables the LLMs trained on short sequences to reason extremely long sequence without any further training or fine-tuning. Under the XL3M framework, the input context will be firstly decomposed into multiple short sub-contexts, where each sub-context contains an independent segment and a common ``question'' which is a few tokens from the end of the original context. Then XL3M gives a method to measure the relevance between each segment and the ``question'', and constructs a concise key context by splicing all the relevant segments in chronological order. The key context is further used instead of the original context to complete the inference task. Evaluations on comprehensive benchmarks show the superiority of XL3M. Using our framework, a Llama2-7B model is able to reason 20M long sequences on an 8-card Huawei Ascend 910B NPU machine with 64GB memory per card.
翻訳日:2024-05-29 22:41:57 公開日:2024-05-28
# 脳MR画像再構成フレームワークのためのモーションインフォームド深層学習

Motion-Informed Deep Learning for Brain MR Image Reconstruction Framework ( http://arxiv.org/abs/2405.17756v1 )

ライセンス: Link先を確認
Zhifeng Chen, Kamlesh Pawar, Kh Tohidul Islam, Himashi Peiris, Gary Egan, Zhaolin Chen, (参考訳) 磁気共鳴イメージング(MRI)における運動アーティファクトは、スキャン中の患者の動きによって頻繁に発生するアーティファクトの1つである。 運動は臨床MRIの約30%に存在すると見積もられているが、深層学習画像再構成モデルでは運動が明確にモデル化されていない。 深層学習(DL)アルゴリズムは、画像再構成タスクと運動補正タスクの両方に有効であることが示されているが、これら2つのタスクは別々に検討されている。 画像再構成作業では、ノイズやエイリアシングアーティファクトなどのアンダーサンプリングアーティファクトを除去する一方、運動補正では、ぼやけ、ゴースト、リングなどのアーティファクトを除去する。 本研究では,画像と正しい動きを同時に高速化する新しい手法を提案する。 これは、深層学習に基づくMRI再構成プロセスにモーションモジュールを統合することで実現される。 我々は、トレーニング中のディープラーニングモデルにおいて、モーションを密に統合した補助層としてモデル化し、ディープラーニングモデルを「モーションインフォームド」する。 推測中、トレーニングされた動きインフォームドDLモデルを用いて、アンサンプされた生のk空間データから画像再構成を行う。 実験結果から,提案した動きインフォームド深層学習画像再構成ネットワークは,従来の画像再構成ネットワークよりも優れていた。

Motion artifacts in Magnetic Resonance Imaging (MRI) are one of the frequently occurring artifacts due to patient movements during scanning. Motion is estimated to be present in approximately 30% of clinical MRI scans; however, motion has not been explicitly modeled within deep learning image reconstruction models. Deep learning (DL) algorithms have been demonstrated to be effective for both the image reconstruction task and the motion correction task, but the two tasks are considered separately. The image reconstruction task involves removing undersampling artifacts such as noise and aliasing artifacts, whereas motion correction involves removing artifacts including blurring, ghosting, and ringing. In this work, we propose a novel method to simultaneously accelerate imaging and correct motion. This is achieved by integrating a motion module into the deep learning-based MRI reconstruction process, enabling real-time detection and correction of motion. We model motion as a tightly integrated auxiliary layer in the deep learning model during training, making the deep learning model 'motion-informed'. During inference, image reconstruction is performed from undersampled raw k-space data using a trained motion-informed DL model. Experimental results demonstrate that the proposed motion-informed deep learning image reconstruction network outperformed the conventional image reconstruction network for motion-degraded MRI datasets.
翻訳日:2024-05-29 22:41:57 公開日:2024-05-28
# 二重変数削減:一階勾配のない複合最適化問題に対する平滑化トリック

Double Variance Reduction: A Smoothing Trick for Composite Optimization Problems without First-Order Gradient ( http://arxiv.org/abs/2405.17761v1 )

ライセンス: Link先を確認
Hao Di, Haishan Ye, Yueling Zhang, Xiangyu Chang, Guang Dai, Ivor W. Tsang, (参考訳) ばらつき低減技術はサンプリングのばらつきを低減し、一階法(FO)とゼロ階法(ZO)の収束率を向上するように設計されている。 しかし、複合最適化問題では、ZO法は、ランダム勾配推定から導かれる座標ワイド分散と呼ばれる追加の分散に遭遇する。 この分散を減らすために、先行研究はすべての偏微分を推定し、基本的にFO情報を近似する必要がある。 このアプローチは O(d) 関数の評価(d は次元サイズ)を必要とするが、これはかなりの計算コストを発生させ、高次元シナリオでは禁忌である。 本稿では,ZPDVR法とZPDVR法を提案する。 従来の手法と比較して、ZPDVRはランダムな勾配推定にのみ依存し、確率的ゼロ次オラクル (SZO) を 1 回当たり $\mathcal{O}(1)$ times と定義し、最適な $\mathcal{O}(d(n + \kappa)\log (\frac{1}{\epsilon}))$ SZO クエリの複雑さを強い凸と滑らかな設定で達成し、$\kappa$ は条件番号を表し、$\epsilon$ は所望の精度である。 実験により、ZPDVRの線形収束を検証し、他の関連手法よりも優れた性能を示す。

Variance reduction techniques are designed to decrease the sampling variance, thereby accelerating convergence rates of first-order (FO) and zeroth-order (ZO) optimization methods. However, in composite optimization problems, ZO methods encounter an additional variance called the coordinate-wise variance, which stems from the random gradient estimation. To reduce this variance, prior works require estimating all partial derivatives, essentially approximating FO information. This approach demands O(d) function evaluations (d is the dimension size), which incurs substantial computational costs and is prohibitive in high-dimensional scenarios. This paper proposes the Zeroth-order Proximal Double Variance Reduction (ZPDVR) method, which utilizes the averaging trick to reduce both sampling and coordinate-wise variances. Compared to prior methods, ZPDVR relies solely on random gradient estimates, calls the stochastic zeroth-order oracle (SZO) in expectation $\mathcal{O}(1)$ times per iteration, and achieves the optimal $\mathcal{O}(d(n + \kappa)\log (\frac{1}{\epsilon}))$ SZO query complexity in the strongly convex and smooth setting, where $\kappa$ represents the condition number and $\epsilon$ is the desired accuracy. Empirical results validate ZPDVR's linear convergence and demonstrate its superior performance over other related methods.
翻訳日:2024-05-29 22:41:57 公開日:2024-05-28
# プログラマブル量子回路による3レベル量子熱エンジンのダイナミックスと熱力学

Capturing dynamics and thermodynamics of a three-level quantum heat engine via programmable quantum circuits ( http://arxiv.org/abs/2405.17763v1 )

ライセンス: Link先を確認
Gao-xiang Deng, Zhe He, Yu Liu, Wei Shao, Zheng Cui, (参考訳) この研究はクラウス表現とSzを用いている。 量子回路上での3レベル量子熱をモデル化し,その動的進化と熱力学性能について考察した。 動的モデルの有効性は、個体群の変化を追跡することによって検証される。 強化学習アルゴリズムに基づいて,最大平均電力に対する量子熱エンジンの最適サイクルを提案し,熱力学モデルを用いて検証した。 量子回路シミュレーションの安定性は、直交試験に述示される理論およびシミュレーション結果の比較分析により精査される。 これらの結果は、量子回路上での量子熱エンジンのシミュレーションの実用性を確認し、そのようなエンジンの構築に伴う実験費用を大幅に削減する可能性を提供する。

This research employs the Kraus representation and Sz.-Nagy dilation theorem to model a three-level quantum heat on quantum circuits, investigating its dynamic evolution and thermodynamic performance. The feasibility of the dynamic model is validated by tracking the changes of population. On the basis of reinforcement learning algorithm, the optimal cycle of the quantum heat engine for maximal average power is proposed and verified by the thermodynamic model. The stability of quantum circuit simulations is scrutinized through a comparative analysis of theoretical and simulated results, predicated on an orthogonal test. These results affirm the practicality of simulating quantum heat engines on quantum circuits, offering potential for substantially curtailing the experimental expenses associated with the construction of such engines.
翻訳日:2024-05-29 22:41:57 公開日:2024-05-28
# 確率過程に基づくシーケンス評価について

On the Sequence Evaluation based on Stochastic Processes ( http://arxiv.org/abs/2405.17764v1 )

ライセンス: Link先を確認
Tianhao Zhang, Zhexiao Lin, Zhecheng Sheng, Chen Jiang, Dongyeop Kang, (参考訳) テキストの長いシーケンスのモデリングと解析は自然言語処理にとって重要な課題である。 ニューラルネットワークモデルによる長いテキストダイナミクスのキャプチャの成功は、コヒーレンス評価、テキスト生成、機械翻訳など、多くの下流タスクを促進する。 本稿では,確率過程を通したモデル系列に対する新しいアプローチを提案する。 本稿では,テキストエンコーダの訓練目標について紹介し,従来の手法と比較して,より詳細なテキスト評価のためのスコア(スコア)を設計する。 提案したトレーニング目的はシーケンスコヒーレンスを効果的に保存し,新しいスコアは時間的および空間的両方の依存関係を包括的にキャプチャする。 新しいスコアの理論的特性は、シーケンス評価においてその利点を示す。 実験の結果,異なる長さの文書間の大域的および局所的な識別を含む,様々なシーケンス評価タスクにおいて,優れた性能を示した。 また,人間とAIによるテキストの識別において,エンコーダが競合する結果を得ることを示す。

Modeling and analyzing long sequences of text is an essential task for Natural Language Processing. Success in capturing long text dynamics using neural language models will facilitate many downstream tasks such as coherence evaluation, text generation, machine translation and so on. This paper presents a novel approach to model sequences through a stochastic process. We introduce a likelihood-based training objective for the text encoder and design a more thorough measurement (score) for long text evaluation compared to the previous approach. The proposed training objective effectively preserves the sequence coherence, while the new score comprehensively captures both temporal and spatial dependencies. Theoretical properties of our new score show its advantages in sequence evaluation. Experimental results show superior performance in various sequence evaluation tasks, including global and local discrimination within and between documents of different lengths. We also demonstrate the encoder achieves competitive results on discriminating human and AI written text.
翻訳日:2024-05-29 22:32:09 公開日:2024-05-28
# PTM-VQA:野生の多様な事前学習モデルを活用した高能率映像品質評価

PTM-VQA: Efficient Video Quality Assessment Leveraging Diverse PreTrained Models from the Wild ( http://arxiv.org/abs/2405.17765v1 )

ライセンス: Link先を確認
Kun Yuan, Hongbo Liu, Mading Li, Muyi Sun, Ming Sun, Jiachao Gong, Jinhua Hao, Chao Zhou, Yansong Tang, (参考訳) 映像品質評価(VQA)は,映像の知覚的品質,字幕,コンテンツ魅力,歪みタイプ,動きパターン,レベルに影響を及ぼす要因が多々あるため,難しい問題である。 しかしながら、ビデオに対する平均評価スコア(MOS)の注釈付けは高価で時間を要するため、VQAデータセットの規模が制限され、ディープラーニングベースの手法では大きな障害となる。 本稿では,PTM-VQAと呼ばれるVQA手法を提案する。PTM-VQAはPreTrained Modelsを利用して,様々な事前タスクで事前訓練されたモデルから知識を伝達し,異なる側面からVQAの利点を実現する。 具体的には、凍結重量の異なる事前学習モデルからビデオの特徴を抽出し、それらを統合して表現を生成する。 これらのモデルには様々な知識分野があり、品質に関係のないラベルで訓練されることが多いため、複数の事前学習モデルによって抽出された特徴に制約を課すために、ICID(Intra-Consistency and Inter-Divisibility)損失を提案する。 一貫性内制約は、異なる事前訓練されたモデルによって抽出された特徴が、同一の品質を意識した潜伏空間にあることを保証し、一方、識別性はサンプルのアノテーションに基づいて擬似クラスタを導入し、異なるクラスタからサンプルの特徴を分離しようとする。 さらに、常に事前訓練されたモデルの数が増えているため、どのモデルを使うか、どのように使用するかを決定することが不可欠である。 この問題に対処するために,適切な候補を選択するための効率的なスキームを提案する。 VQAデータセットのクラスタリング性能が向上したモデルが候補に選ばれます。 大規模実験により提案手法の有効性が示された。

Video quality assessment (VQA) is a challenging problem due to the numerous factors that can affect the perceptual quality of a video, \eg, content attractiveness, distortion type, motion pattern, and level. However, annotating the Mean opinion score (MOS) for videos is expensive and time-consuming, which limits the scale of VQA datasets, and poses a significant obstacle for deep learning-based methods. In this paper, we propose a VQA method named PTM-VQA, which leverages PreTrained Models to transfer knowledge from models pretrained on various pre-tasks, enabling benefits for VQA from different aspects. Specifically, we extract features of videos from different pretrained models with frozen weights and integrate them to generate representation. Since these models possess various fields of knowledge and are often trained with labels irrelevant to quality, we propose an Intra-Consistency and Inter-Divisibility (ICID) loss to impose constraints on features extracted by multiple pretrained models. The intra-consistency constraint ensures that features extracted by different pretrained models are in the same unified quality-aware latent space, while the inter-divisibility introduces pseudo clusters based on the annotation of samples and tries to separate features of samples from different clusters. Furthermore, with a constantly growing number of pretrained models, it is crucial to determine which models to use and how to use them. To address this problem, we propose an efficient scheme to select suitable candidates. Models with better clustering performance on VQA datasets are chosen to be our candidates. Extensive experiments demonstrate the effectiveness of the proposed method.
翻訳日:2024-05-29 22:32:09 公開日:2024-05-28
# スリープFM:脳活動、心電図、呼吸信号の横断的な睡眠のためのマルチモーダル表現学習

SleepFM: Multi-modal Representation Learning for Sleep Across Brain Activity, ECG and Respiratory Signals ( http://arxiv.org/abs/2405.17766v1 )

ライセンス: Link先を確認
Rahul Thapa, Bryan He, Magnus Ruud Kjaer, Hyatt Moore, Gauri Ganjoo, Emmanuel Mignot, James Zou, (参考訳) 睡眠は、脳、心臓、呼吸活動を記録する様々なモードを通して評価される複雑な生理的過程である。 マルチモーダル睡眠記録を10万時間以上使用した14,000人以上の参加者を対象に,大規模なポリソノグラフィーデータセットをキュレートした。 この広範なデータセットを活用して、睡眠分析のための最初のマルチモーダル基礎モデルであるSleepFMを開発した。 コントラスト学習のための新しい一対一の手法は、標準対のコントラスト学習の表現と比較して、ダウンストリームのタスク性能を著しく向上させることを示す。 睡眠段階分類(macro AUROC 0.88 vs 0.72 and macro AUPRC 0.72 vs 0.48)と睡眠障害呼吸検出(AUROC 0.85 vs 0.69 and AUPRC 0.77 vs 0.61)において、SleepFMの学習埋め込みに基づいてトレーニングされたロジスティック回帰モデルは、エンドツーエンドのトレーニングされた畳み込みニューラルネットワーク(CNN)よりも優れている。 特に、学習した埋め込みは、90,000人の候補者から他のモダリティの録音クリップを検索する際に、平均48%のトップ1の精度を達成する。 この研究は、睡眠記録の豊かさを完全に捉えるために、総合的なマルチモーダル睡眠モデリングの価値を示す。 SleepFMはオープンソースでhttps://github.com/rthapa84/sleepfm-codebase.comから入手できる。

Sleep is a complex physiological process evaluated through various modalities recording electrical brain, cardiac, and respiratory activities. We curate a large polysomnography dataset from over 14,000 participants comprising over 100,000 hours of multi-modal sleep recordings. Leveraging this extensive dataset, we developed SleepFM, the first multi-modal foundation model for sleep analysis. We show that a novel leave-one-out approach for contrastive learning significantly improves downstream task performance compared to representations from standard pairwise contrastive learning. A logistic regression model trained on SleepFM's learned embeddings outperforms an end-to-end trained convolutional neural network (CNN) on sleep stage classification (macro AUROC 0.88 vs 0.72 and macro AUPRC 0.72 vs 0.48) and sleep disordered breathing detection (AUROC 0.85 vs 0.69 and AUPRC 0.77 vs 0.61). Notably, the learned embeddings achieve 48% top-1 average accuracy in retrieving the corresponding recording clips of other modalities from 90,000 candidates. This work demonstrates the value of holistic multi-modal sleep modeling to fully capture the richness of sleep recordings. SleepFM is open source and available at https://github.com/rthapa84/sleepfm-codebase.
翻訳日:2024-05-29 22:32:09 公開日:2024-05-28
# 言語崩壊:(大規模)言語モデルにおける神経崩壊

Linguistic Collapse: Neural Collapse in (Large) Language Models ( http://arxiv.org/abs/2405.17767v1 )

ライセンス: Link先を確認
Robert Wu, Vardan Papyan, (参考訳) ニューラル崩壊(Neural collapse)(\mathcal{NC}$)は、トップ層表現がクラス平均に崩壊する分類タスクで観察される現象で、等角的、等角的、分類器と整合する。 モデルはゼロ損失に向けて訓練され、バランスの取れたクラスに属するノイズフリーラベルは、モデルの隠れた次元を上回りません。 近年の研究では、理想的な測地線の利点を拡張・活用するために、これらの条件の1つ以上の欠如により$\mathcal{NC}$を探索している。 言語モデリングは興味深いフロンティアを示しており、 \textit{training by token prediction} は条件が存在しない分類タスクを構成している: 語彙は不均衡であり、埋め込み次元を超えた; 異なるトークンは同様の文脈の埋め込みに対応する; 特に大きな言語モデル(LLM)は、いくつかのエポックに対してのみ訓練される。 本稿では,アーキテクチャのスケールアップと言語モデル(CLM)の訓練が$\mathcal{NC}$への進行に与える影響を実証的に検討する。 スケーリングで発展する$\mathcal{NC}$プロパティが一般化に結びついていることが分かる。 さらに、$\mathcal{NC}$とスケールに依存しない一般化の間の何らかの関係の証拠がある。 したがって、我々の研究は、言語モデリングの斬新でより困難な設定にまで拡張され、$\mathcal{NC}$の一般性を強調している。 下流では、この現象に関するさらなる研究を刺激し、LLMの理解を深め、大規模なニューラルネットワークを開発し、$\mathcal{NC}$-relatedプロパティに基づいた既存のアーキテクチャを改善しようとしています。

Neural collapse ($\mathcal{NC}$) is a phenomenon observed in classification tasks where top-layer representations collapse into their class means, which become equinorm, equiangular and aligned with the classifiers. These behaviors -- associated with generalization and robustness -- would manifest under specific conditions: models are trained towards zero loss, with noise-free labels belonging to balanced classes, which do not outnumber the model's hidden dimension. Recent studies have explored $\mathcal{NC}$ in the absence of one or more of these conditions to extend and capitalize on the associated benefits of ideal geometries. Language modeling presents a curious frontier, as \textit{training by token prediction} constitutes a classification task where none of the conditions exist: the vocabulary is imbalanced and exceeds the embedding dimension; different tokens might correspond to similar contextual embeddings; and large language models (LLMs) in particular are typically only trained for a few epochs. This paper empirically investigates the impact of scaling the architectures and training of causal language models (CLMs) on their progression towards $\mathcal{NC}$. We find that $\mathcal{NC}$ properties that develop with scaling are linked to generalization. Moreover, there is evidence of some relationship between $\mathcal{NC}$ and generalization independent of scale. Our work therefore underscores the generality of $\mathcal{NC}$ as it extends to the novel and more challenging setting of language modeling. Downstream, we seek to inspire further research on the phenomenon to deepen our understanding of LLMs -- and neural networks at large -- and improve existing architectures based on $\mathcal{NC}$-related properties.
翻訳日:2024-05-29 22:32:09 公開日:2024-05-28
# 異種グラフニューラルネットワークにおけるメッセージパッシングの再検討

Revisiting the Message Passing in Heterophilous Graph Neural Networks ( http://arxiv.org/abs/2405.17768v1 )

ライセンス: Link先を確認
Zhuonan Zheng, Yuanchen Bei, Sheng Zhou, Yao Ma, Ming Gu, HongJia XU, Chengyu Lai, Jiawei Chen, Jiajun Bu, (参考訳) グラフニューラルネットワーク(GNN)は、隣接するノードが同様の振舞いを示すというホモフィリな仮定に沿うメッセージパッシング機構により、グラフマイニングタスクにおいて強い性能を示す。 しかし、多くの実世界のグラフでは、連結ノードは異種交配パターンと呼ばれる対照的な振舞いを示す可能性があるため、異種交配GNN(HTGNN)への関心が高まっている。 メッセージパッシング機構は、クラス非関連情報の伝播による異種グラフには適さないように見えるが、現在でも多くの既存のHTGNNで広く利用されており、一貫して顕著な成功を収めている。 これは、なぜメッセージパッシングが異種グラフに有効であるのかという疑問を提起する。 本稿では,異種グラフニューラルネットワークにおけるメッセージパッシング機構を再検討し,それらを統一異種グラフパッシング(HTMP)機構に再構成する。 HTMPと経験的分析から,既存のHTGNNにおけるメッセージパッシングの成功は,クラス間の互換性を暗黙的に向上させることに起因することが明らかになった。 さらに、実世界の異種グラフに不完全でノイズの多いセマンティックな近傍が存在するため、互換性行列の完全なポテンシャルが完全には達成されないと論じる。 このギャップを埋めるために,HTMP機構内で動作し,互換性行列を明示的に活用し改善するCMGNNという新しいアプローチを導入する。 10のベンチマークデータセットと13の確立されたベースラインの比較分析による徹底的な評価は、HTMPメカニズムとCMGNNメソッドの優れた性能を強調している。

Graph Neural Networks (GNNs) have demonstrated strong performance in graph mining tasks due to their message-passing mechanism, which is aligned with the homophily assumption that adjacent nodes exhibit similar behaviors. However, in many real-world graphs, connected nodes may display contrasting behaviors, termed as heterophilous patterns, which has attracted increased interest in heterophilous GNNs (HTGNNs). Although the message-passing mechanism seems unsuitable for heterophilous graphs due to the propagation of class-irrelevant information, it is still widely used in many existing HTGNNs and consistently achieves notable success. This raises the question: why does message passing remain effective on heterophilous graphs? To answer this question, in this paper, we revisit the message-passing mechanisms in heterophilous graph neural networks and reformulate them into a unified heterophilious message-passing (HTMP) mechanism. Based on HTMP and empirical analysis, we reveal that the success of message passing in existing HTGNNs is attributed to implicitly enhancing the compatibility matrix among classes. Moreover, we argue that the full potential of the compatibility matrix is not completely achieved due to the existence of incomplete and noisy semantic neighborhoods in real-world heterophilous graphs. To bridge this gap, we introduce a new approach named CMGNN, which operates within the HTMP mechanism to explicitly leverage and improve the compatibility matrix. A thorough evaluation involving 10 benchmark datasets and comparative analysis against 13 well-established baselines highlights the superior performance of the HTMP mechanism and CMGNN method.
翻訳日:2024-05-29 22:32:09 公開日:2024-05-28
# マイクロサケードにインスパイアされたロボット用イベントカメラ

Microsaccade-inspired Event Camera for Robotics ( http://arxiv.org/abs/2405.17769v1 )

ライセンス: Link先を確認
Botao He, Ze Wang, Yuan Zhou, Jingxi Chen, Chahat Deep Singh, Haojia Li, Yuman Gao, Shaojie Shen, Kaiwei Wang, Yanjun Cao, Chao Xu, Yiannis Aloimonos, Fei Gao, Cornelia Fermuller, (参考訳) ニューロモルフィック視覚センサーやイベントカメラは、非常に低い反応時間の視覚的認識を可能にし、ハイダイナミックなロボティクス応用のための新たな道を開いた。 これらのイベントカメラの出力は、動きとテクスチャの両方に依存する。 しかし、イベントカメラは、カメラの動きと平行なオブジェクトエッジをキャプチャできない。 これはセンサーに固有の問題であり、アルゴリズムを解くのが難しい。 人間の視覚は、小さな不随意眼球運動の能動機構を用いて知覚の失明を扱う。 固定中に目が常にわずかに動くことで、マイクロサケードはテクスチャの安定性と持続性を大幅に維持できる。 マイクロサケードにインスパイアされた我々は,低反応時間と安定したテクスチャを同時に維持できるイベントベースの知覚システムを設計した。 この設計では、回転するウェッジプリズムがイベントカメラの開口部の前に取り付けられ、光をリダイレクトし、イベントをトリガーする。 回転するくさびプリズムの幾何学的光学は、追加の回転運動のアルゴリズム的補償を可能にし、安定したテクスチャの外観と外部運動とは無関係に高い情報出力をもたらす。 ハードウェアデバイスとソフトウェアソリューションはシステムに統合され、我々はArtificial MIcrosaccade-enhanced EVent camera (AMI-EV)と呼ぶ。 ベンチマーク比較は、標準カメラとイベントカメラの両方が配信できないシナリオにおいて、AMI-EV記録の優れたデータ品質を検証する。 様々な実世界の実験では、ロボット工学が低レベルと高レベルの両方の視覚タスクに対して知覚を促進する可能性を実証している。

Neuromorphic vision sensors or event cameras have made the visual perception of extremely low reaction time possible, opening new avenues for high-dynamic robotics applications. These event cameras' output is dependent on both motion and texture. However, the event camera fails to capture object edges that are parallel to the camera motion. This is a problem intrinsic to the sensor and therefore challenging to solve algorithmically. Human vision deals with perceptual fading using the active mechanism of small involuntary eye movements, the most prominent ones called microsaccades. By moving the eyes constantly and slightly during fixation, microsaccades can substantially maintain texture stability and persistence. Inspired by microsaccades, we designed an event-based perception system capable of simultaneously maintaining low reaction time and stable texture. In this design, a rotating wedge prism was mounted in front of the aperture of an event camera to redirect light and trigger events. The geometrical optics of the rotating wedge prism allows for algorithmic compensation of the additional rotational motion, resulting in a stable texture appearance and high informational output independent of external motion. The hardware device and software solution are integrated into a system, which we call Artificial MIcrosaccade-enhanced EVent camera (AMI-EV). Benchmark comparisons validate the superior data quality of AMI-EV recordings in scenarios where both standard cameras and event cameras fail to deliver. Various real-world experiments demonstrate the potential of the system to facilitate robotics perception both for low-level and high-level vision tasks.
翻訳日:2024-05-29 22:32:09 公開日:2024-05-28
# 一般化とブラインドRGB-Xトラッカーを目指して

Towards a Generalist and Blind RGB-X Tracker ( http://arxiv.org/abs/2405.17773v1 )

ライセンス: Link先を確認
Yuedong Tan, Zongwei Wu, Yuqian Fu, Zhuyun Zhou, Guolei Sun, Chao Ma, Danda Pani Paudel, Luc Van Gool, Radu Timofte, (参考訳) NLPにおける多数のタスクをうまく解決できる単一大規模モデルの出現により、コンピュータビジョンにおいて同様の目標を達成することへの研究の関心が高まっている。 一方、これらの一般的なモデルのほとんどは、汎用的なビジョンモデルと呼ばれ、異なるタスクに対応する統一されたアウトプットを作成することを目的としている。 一方、既存のモデルの中には、異なる入力タイプ(いわゆるデータモダリティ)を組み合わせて、1つの大きなモデルで処理するものもある。 しかし、この組み合わせのステップは依然として特別であり、最初の野心を果たせていない。 本稿では、RGB-Xビデオオブジェクト追跡の文脈において、このような特殊化(統一の際)は不要であることを示す。 私たちの単一モデルトラッカーであるXTrackは、推論時間中に任意のモダリティXに盲目のままでいられる。 我々のトラッカーは、共有共通性に特化したものと、入力モダリティに基づく推論を柔軟に行うことのできるものとを混合したモーダルエキスパートを用いている。 このような設計は、モダリティ固有の情報表現を弱めることなく、共通の潜在空間に対する入力モダリティの統一を保証する。 このアイデアにより、トレーニングプロセスは非常にシンプルで、複数ラベルの分類損失をルーティング関数と統合することで、ペアデータのみからでも、すべてのモダリティを効果的に整列し、統一することが可能になる。 したがって、推論の間、モーダルの帰納バイアスに頼らずに任意のモダリティを適用でき、ジェネラリストのパフォーマンスを達成することができる。 ベルとホイッスルがなければ、我々のジェネラリストとブラインドトラッカーは、3つの補助モーダルの5つのベンチマークにおいて、よく使われる深さ、熱、およびイベントデータを網羅した、確立されたモーダル特化モデルと比較して、競争性能を達成することができる。

With the emergence of a single large model capable of successfully solving a multitude of tasks in NLP, there has been growing research interest in achieving similar goals in computer vision. On the one hand, most of these generic models, referred to as generalist vision models, aim at producing unified outputs serving different tasks. On the other hand, some existing models aim to combine different input types (aka data modalities), which are then processed by a single large model. Yet, this step of combination remains specialized, which falls short of serving the initial ambition. In this paper, we showcase that such specialization (during unification) is unnecessary, in the context of RGB-X video object tracking. Our single model tracker, termed XTrack, can remain blind to any modality X during inference time. Our tracker employs a mixture of modal experts comprising those dedicated to shared commonality and others capable of flexibly performing reasoning conditioned on input modality. Such a design ensures the unification of input modalities towards a common latent space, without weakening the modality-specific information representation. With this idea, our training process is extremely simple, integrating multi-label classification loss with a routing function, thereby effectively aligning and unifying all modalities together, even from only paired data. Thus, during inference, we can adopt any modality without relying on the inductive bias of the modal prior and achieve generalist performance. Without any bells and whistles, our generalist and blind tracker can achieve competitive performance compared to well-established modal-specific models on 5 benchmarks across 3 auxiliary modalities, covering commonly used depth, thermal, and event data.
翻訳日:2024-05-29 22:32:09 公開日:2024-05-28
# 教師なしドメイン適応のためのプロトタイプネットワークにおける漸進的消滅ギャップ

Gradually Vanishing Gap in Prototypical Network for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2405.17774v1 )

ライセンス: Link先を確認
Shanshan Wang, Hao Zhou, Xun Yang, Zhenwei He, Mengzhu Wang, Xingyi Zhang, Meng Wang, (参考訳) 非教師付きドメイン適応(Unsupervised domain adapt, UDA)は、ラベル付きソースドメインからラベル付きターゲットドメインに意味情報を転送することを目的とした、トランスファーラーニングにおける重要な問題である。 近年のUDAモデルの進歩は、対象領域における顕著な一般化能力を示している。 しかし、UDAモデルの一般化境界はいまだ不明である。 ドメインの不一致が大きすぎると、モデルは分布構造を保存できず、アライメント中に分布が崩壊する。 この課題に対処するために,グローバルとローカルの両方の観点から伝達学習を実現するGVG-PN(Gradually Vanishing Gap in Prototypeal Network)という,効率的なUDAフレームワークを提案する。 大域的なアライメントの観点から、我々のモデルは分布構造を保存するのに役立つ領域バイアスの中間領域を生成する。 ドメイン間の特徴を絡み合わせることで、我々のモデルは分散崩壊のリスクを徐々に低減します。 しかし、分布構造を維持するには、グローバルアライメントに頼るだけでは不十分である。 特徴の内的関係をさらに高めるために,局所的な視点を導入する。 グラフ畳み込みネットワーク(GCN)を直感的な手法として,特徴間の内部関係を探索し,多様体構造を確実に保存し,ドメインバイアスのあるプロトタイプを生成する。 さらに,特徴間の内的関係の識別可能性についても検討する。 本稿では, 高い負の対を分離することにより, プロトタイプレベルでの識別可能性を高めるための競合性損失を提案する。 このモデルでは,GCNとプロコントラスト損失の両方を組み込むことで,詳細な意味的関係を解明する。 いくつかのUDAベンチマークの実験では、提案されたGVG-PNがSOTAモデルより明らかに優れていることが検証された。

Unsupervised domain adaptation (UDA) is a critical problem for transfer learning, which aims to transfer the semantic information from labeled source domain to unlabeled target domain. Recent advancements in UDA models have demonstrated significant generalization capabilities on the target domain. However, the generalization boundary of UDA models remains unclear. When the domain discrepancy is too large, the model can not preserve the distribution structure, leading to distribution collapse during the alignment. To address this challenge, we propose an efficient UDA framework named Gradually Vanishing Gap in Prototypical Network (GVG-PN), which achieves transfer learning from both global and local perspectives. From the global alignment standpoint, our model generates a domain-biased intermediate domain that helps preserve the distribution structures. By entangling cross-domain features, our model progressively reduces the risk of distribution collapse. However, only relying on global alignment is insufficient to preserve the distribution structure. To further enhance the inner relationships of features, we introduce the local perspective. We utilize the graph convolutional network (GCN) as an intuitive method to explore the internal relationships between features, ensuring the preservation of manifold structures and generating domain-biased prototypes. Additionally, we consider the discriminability of the inner relationships between features. We propose a pro-contrastive loss to enhance the discriminability at the prototype level by separating hard negative pairs. By incorporating both GCN and the pro-contrastive loss, our model fully explores fine-grained semantic relationships. Experiments on several UDA benchmarks validated that the proposed GVG-PN can clearly outperform the SOTA models.
翻訳日:2024-05-29 22:32:09 公開日:2024-05-28
# 特別設計型アップサンプリング・アテンションによる二元量子ニューラルネットワークによる密度予測

The Binary Quantized Neural Network for Dense Prediction via Specially Designed Upsampling and Attention ( http://arxiv.org/abs/2405.17776v1 )

ライセンス: Link先を確認
Xingyu Ding, Lianlei Shan, Guiqin Zhao, Meiqi Wu, Wenzhang Zhou, Wei Li, (参考訳) ディープラーニングベースの情報処理は、長い時間を費やし、特にセマンティックセグメンテーションや有能なオブジェクト検出など、各ピクセルの出力を必要とする高密度な予測タスクのために、巨大なコンピューティングリソースを必要とする。 密度予測タスクの定量化には,主に2つの課題がある。 第一に、高密度予測タスクが必要とするアップサンプリング操作を直接適用することは極めて粗末であり、許容できない精度の低下を引き起こす。 第二に、密度予測ネットワークの複雑な構造は、量子化を行う際に高速かつ高精度を維持することが困難であることを意味する。 本稿では、単一予測タスクから高密度予測タスクへバイナリニューラルネットワーク(BNN)の成功を伝達するための効果的なアップサンプリング手法と効率的な注意計算戦略を提案する。 まず, 単純で頑健なマルチブランチ並列アップサンプリング構造を設計し, 高い精度を実現する。 さらに,セグメンテーションにおいて重要な役割を果たすが,計算の複雑さが大きい注意法を最適化する。 我々の注意法は計算の複雑さを100倍に削減できるが、元の効果は維持できる。 Cityscapes、KITTI Road、ECSSDの実験は、我々の作業の有効性を十分に示している。

Deep learning-based information processing consumes long time and requires huge computing resources, especially for dense prediction tasks which require an output for each pixel, like semantic segmentation and salient object detection. There are mainly two challenges for quantization of dense prediction tasks. Firstly, directly applying the upsampling operation that dense prediction tasks require is extremely crude and causes unacceptable accuracy reduction. Secondly, the complex structure of dense prediction networks means it is difficult to maintain a fast speed as well as a high accuracy when performing quantization. In this paper, we propose an effective upsampling method and an efficient attention computation strategy to transfer the success of the binary neural networks (BNN) from single prediction tasks to dense prediction tasks. Firstly, we design a simple and robust multi-branch parallel upsampling structure to achieve the high accuracy. Then we further optimize the attention method which plays an important role in segmentation but has huge computation complexity. Our attention method can reduce the computational complexity by a factor of one hundred times but retain the original effect. Experiments on Cityscapes, KITTI road, and ECSSD fully show the effectiveness of our work.
翻訳日:2024-05-29 22:32:09 公開日:2024-05-28
# 不均衡自律運転課題に対する大規模モデルを用いたオンライン分析的初等連続学習

Online Analytic Exemplar-Free Continual Learning with Large Models for Imbalanced Autonomous Driving Task ( http://arxiv.org/abs/2405.17779v1 )

ライセンス: Link先を確認
Huiping Zhuang, Di Fang, Kai Tong, Yuchen Liu, Ziqian Zeng, Xu Zhou, Cen Chen, (参考訳) 自律運転の分野では、精巧に訓練されたモデルでさえ、馴染みの無いスカンリオに直面すると失敗する可能性がある。 これらのシナリオの1つは、オンライン連続学習(OCL)問題として定式化することができる。 つまり、データはオンライン形式で提供され、これらのストリーミングデータに従ってモデルが更新される。 OCLの2つの大きな課題は、壊滅的な忘れとデータの不均衡である。 これらの課題に対処するため,本稿では,AEF-OCL(Analytic Exemplar-Free Online Continual Learning)を提案する。 AEF-OCLは解析的連続学習原理を活用し、大きなバックボーンネットワークによって抽出された特徴の分類器としてリッジ回帰を用いる。 分析解を再帰的に計算し、継続学習と共同学習の等化を保証することでOCL問題を解決し、使用済みサンプル(例題なし)を保存せずに機能する。 さらに,Pseudo-Features Generator (PFG)モジュールを導入し,実際の特徴のずれを再帰的に推定する。 PFGは、正規分布に続くオフセット擬似特徴を生成し、データ不均衡問題に対処する。 実験結果から, 自動走行SODA10Mデータセットにおいて, 提案手法は, 既往の戦略であるにもかかわらず, 様々な手法より優れていることが示された。 ソースコードはhttps://github.com/ZHUANGHP/Analytic-Continual-learningで入手できる。

In the field of autonomous driving, even a meticulously trained model can encounter failures when faced with unfamiliar sceanrios. One of these scenarios can be formulated as an online continual learning (OCL) problem. That is, data come in an online fashion, and models are updated according to these streaming data. Two major OCL challenges are catastrophic forgetting and data imbalance. To address these challenges, in this paper, we propose an Analytic Exemplar-Free Online Continual Learning (AEF-OCL). The AEF-OCL leverages analytic continual learning principles and employs ridge regression as a classifier for features extracted by a large backbone network. It solves the OCL problem by recursively calculating the analytical solution, ensuring an equalization between the continual learning and its joint-learning counterpart, and works without the need to save any used samples (i.e., exemplar-free). Additionally, we introduce a Pseudo-Features Generator (PFG) module that recursively estimates the deviation of real features. The PFG generates offset pseudo-features following a normal distribution, thereby addressing the data imbalance issue. Experimental results demonstrate that despite being an exemplar-free strategy, our method outperforms various methods on the autonomous driving SODA10M dataset. Source code is available at https://github.com/ZHUANGHP/Analytic-continual-learning.
翻訳日:2024-05-29 22:32:09 公開日:2024-05-28
# 2レベル系としての散逸誘起境界状態

Dissipation-induced bound states as a two-level system ( http://arxiv.org/abs/2405.17781v1 )

ライセンス: Link先を確認
Hong Peng Zhang, Zhi Song, (参考訳) ポテンシャル井戸は、量子粒子を拘束して離散エネルギー準位を形成し、人工的な少数レベルシステムとして機能する。 対照的に、反パリティ時間(\mathcal{PT}$)対称系は1対の実エネルギー準位を持つことができるが、残りの全ての準位はエネルギーの負の虚部のために不安定である。 本研究では,高調波想像ポテンシャルによって誘導される強結合鎖における束縛状態の形成について検討する。 厳密な解は、エネルギー準位の実部は等距離であり、虚部は半負の定値で等距離であることを示している。 これにより、効果的な2レベルシステムの構築が可能になる。 幅広いプロファイルを持つ与えられた初期状態に対して、進化状態は常に2つの安定固有状態の重ね合わせに収束する。 さらに、この2つの状態はディラック内積の下で直交しており、線形場の$\pi$パルスを適用することで相互に切り替えることができる。 我々の発見は、消散による量子デバイス製造の代替手段を提供する。

Potential wells are employed to constrain quantum particles into forming discrete energy levels, acting as artificial few-level systems. In contrast, an anti-parity-time ($\mathcal{PT}$) symmetric system can have a single pair of real energy levels, while all the remaining levels are unstable due to the negative imaginary part of the energy. In this work, we investigate the formation of bound states in a tight-binding chain induced by a harmonic imaginary potential. Exact solutions show that the real parts of energy levels are equidistant, while the imaginary parts are semi-negative definite and equidistant. This allows for the formation of an effective two-level system. For a given initial state with a wide range of profiles, the evolved state always converges to a superposition of two stable eigenstates. In addition, these two states are orthogonal under the Dirac inner product and can be mutually switched by applying a $\pi$ pulse of a linear field. Our finding provides an alternative method for fabricating quantum devices through dissipation.
翻訳日:2024-05-29 22:32:09 公開日:2024-05-28
# フェール後のフェールラーニング:ポストプロセッシングによるフェールラーニングにおけるグループとコミュニティフェアネスの獲得

Post-Fair Federated Learning: Achieving Group and Community Fairness in Federated Learning via Post-processing ( http://arxiv.org/abs/2405.17782v1 )

ライセンス: Link先を確認
Yuying Duan, Yijun Tian, Nitesh Chawla, Michael Lemmon, (参考訳) Federated Learning(FL)は、地域コミュニティの集合が共同で共有グローバルモデルを学習し、各コミュニティ内ですべてのトレーニングデータをローカルに保持する分散機械学習フレームワークである。 グループフェアネスとコミュニティフェアネスの2つの概念が近年,連合学習の重要な課題として浮上している。 集団公正性は、モデルの決定が、人種や性別のような法的に保護された属性のセットに基づいて特定のグループを好まないことを要求する。 コミュニティフェアネスは、グローバルモデルが、協力するすべてのコミュニティで、同様のレベルのパフォーマンス(正確性)を示すことを要求する。 どちらのフェアネスの概念もFLフレームワーク内で共存できるが、既存の文献では概念のどちらにも焦点を当てている。 本稿では、後処理フェアフェデレーション学習(FFL)フレームワークであるPost-FFLを提案し、分析する。 ポストFFLは、グローバルモデルの有用性を最大化しながら、グループとコミュニティの公平性を同時に実施するための線形プログラムを使用する。 Post-FFLは後処理のアプローチであるため、収束特性がよく理解されている既存のFLトレーニングパイプラインで使用することができる。 本稿では、実世界のデータセットにポストFFLを用いて、例えば、病院ネットワークがコミュニティの医療を提供するためにフェデレートラーニングをどのように利用しているかを模倣する。 理論的な結果は、FFL後の精度が両概念の公正性を強制した場合に失われる。 実験の結果, ポストFFLはFLの群落公平性とコミュニティフェアネスを同時に改善することがわかった。 さらに、FFL後では、公正性、通信効率、計算コストの両面において、既存の処理フェアフェデレーション学習よりも優れています。

Federated Learning (FL) is a distributed machine learning framework in which a set of local communities collaboratively learn a shared global model while retaining all training data locally within each community. Two notions of fairness have recently emerged as important issues for federated learning: group fairness and community fairness. Group fairness requires that a model's decisions do not favor any particular group based on a set of legally protected attributes such as race or gender. Community fairness requires that global models exhibit similar levels of performance (accuracy) across all collaborating communities. Both fairness concepts can coexist within an FL framework, but the existing literature has focused on either one concept or the other. This paper proposes and analyzes a post-processing fair federated learning (FFL) framework called post-FFL. Post-FFL uses a linear program to simultaneously enforce group and community fairness while maximizing the utility of the global model. Because Post-FFL is a post-processing approach, it can be used with existing FL training pipelines whose convergence properties are well understood. This paper uses post-FFL on real-world datasets to mimic how hospital networks, for example, use federated learning to deliver community health care. Theoretical results bound the accuracy lost when post-FFL enforces both notion of fairness. Experimental results illustrate that post-FFL simultaneously improves both group and community fairness in FL. Moreover, post-FFL outperforms the existing in-processing fair federated learning in terms of improving both notions of fairness, communication efficiency and computation cost.
翻訳日:2024-05-29 22:32:09 公開日:2024-05-28
# Adaptive Horizon Actor-Critic for Policy Learning in Contact-Rich Differentiable Simulation

Adaptive Horizon Actor-Critic for Policy Learning in Contact-Rich Differentiable Simulation ( http://arxiv.org/abs/2405.17784v1 )

ライセンス: Link先を確認
Ignat Georgiev, Krishnan Srinivasan, Jie Xu, Eric Heiden, Animesh Garg, (参考訳) 政策勾配定理を利用したモデル自由強化学習~(MFRL)は連続制御タスクにおいてかなりの成功を収めた。 しかし、これらのアプローチは、ゼロ階勾配推定による高勾配のばらつきに悩まされ、その結果、準最適ポリシーがもたらされる。 逆に、一階モデルベース強化学習~(FO-MBRL)法は、微分可能シミュレーションを用いて、分散の少ない勾配を提供するが、物理的接触などの厳密なダイナミックスを含むシナリオにおいて、誤差をサンプリングする可能性がある。 本稿では,この誤差の原因を調査し,厳密なダイナミクスを避けるためにモデルベース地平線を適用して勾配誤差を低減するFO-MBRLアルゴリズムであるAdaptive Horizon Actor-Critic (AHAC)を導入する。 実験の結果,AHACはMFRLベースラインを上回り,ローコモーションタスクの40倍の報酬を達成し,壁面時間効率を向上した高次元制御環境に効率よくスケールできることがわかった。

Model-Free Reinforcement Learning~(MFRL), leveraging the policy gradient theorem, has demonstrated considerable success in continuous control tasks. However, these approaches are plagued by high gradient variance due to zeroth-order gradient estimation, resulting in suboptimal policies. Conversely, First-Order Model-Based Reinforcement Learning~(FO-MBRL) methods, employing differentiable simulation, provide gradients with reduced variance but are susceptible to sampling error in scenarios involving stiff dynamics, such as physical contact. This paper investigates the source of this error and introduces Adaptive Horizon Actor-Critic (AHAC), an FO-MBRL algorithm that reduces gradient error by adapting the model-based horizon to avoid stiff dynamics. Empirical findings reveal that AHAC outperforms MFRL baselines, attaining 40\% more reward across a set of locomotion tasks, and efficiently scaling to high-dimensional control environments with improved wall-clock-time efficiency.
翻訳日:2024-05-29 22:32:09 公開日:2024-05-28
# 道路安全の強化:畳み込みニューラルネットワークによるドライバのリアルタイム検出

Enhancing Road Safety: Real-Time Detection of Driver Distraction through Convolutional Neural Networks ( http://arxiv.org/abs/2405.17788v1 )

ライセンス: Link先を確認
Amaan Aijaz Sheikh, Imaad Zaffar Khan, (参考訳) 毎日の通勤をナビゲートする中で、注意をそらされたドライバーが起こす脅威は大きなもので、交通事故が急増する。 この安全性の懸念に対処するため、我々のプロジェクトは畳み込みニューラルネットワーク(CNN)の分析力を活用し、確立されたモデルであるVGG16とVGG19に特に重点を置いている。 これらのモデルは、画像認識における精度が評価され、様々な環境条件下での運転行動のニュアンスを検出する能力について慎重にテストされている。 本研究は,CNNアーキテクチャの配列に対する比較分析を通じて,運転者の気晴らしをリアルタイムに検出するための最も効率的なモデルを特定することを目的とする。 最終的な目的は、この発見を車両の安全システムに組み込むことであり、不注意によって引き起こされる事故を防ぐ能力を大幅に向上させることである。 この研究は、自動車安全技術の理解を深めるだけでなく、ドライバーの行動に直感的に整合し、より安全な道路を確保するための重要なステップでもある。

As we navigate our daily commutes, the threat posed by a distracted driver is at a large, resulting in a troubling rise in traffic accidents. Addressing this safety concern, our project harnesses the analytical power of Convolutional Neural Networks (CNNs), with a particular emphasis on the well-established models VGG16 and VGG19. These models are acclaimed for their precision in image recognition and are meticulously tested for their ability to detect nuances in driver behavior under varying environmental conditions. Through a comparative analysis against an array of CNN architectures, this study seeks to identify the most efficient model for real-time detection of driver distractions. The ultimate aim is to incorporate the findings into vehicle safety systems, significantly boosting their capability to prevent accidents triggered by inattention. This research not only enhances our understanding of automotive safety technologies but also marks a pivotal step towards creating vehicles that are intuitively aligned with driver behaviors, ensuring safer roads for all.
翻訳日:2024-05-29 22:32:09 公開日:2024-05-28
# Instruct-ReID++:Universal Purpose Instruction-Guided Person Re-identificationを目指して

Instruct-ReID++: Towards Universal Purpose Instruction-Guided Person Re-identification ( http://arxiv.org/abs/2405.17790v1 )

ライセンス: Link先を確認
Weizhen He, Yiheng Deng, Yunfeng Yan, Feng Zhu, Yizhou Wang, Lei Bai, Qingsong Xie, Donglian Qi, Wanli Ouyang, Shixiang Tang, (参考訳) 人間の知性は、視覚的および言語的記述の両方に従って、任意の人物を検索することができる。 しかし、現在のコンピュータビジョンコミュニティは、異なるシナリオにおける特定の人物再識別(ReID)タスクを別々に研究しており、現実世界の応用を制限している。 本稿では、与えられた画像や言語命令に従って画像を取得する必要がある新しい命令-ReIDタスクを提案することで、この問題を解決する。 Instruct-ReIDは一般的なReID設定の最初の探索であり、既存の6つのReIDタスクを異なる命令を割り当てることで特別なケースとして見ることができる。 そこで本研究では,タスク固有性やタスク不要性など,多種多様なデータと包括的評価手法を備えた大規模OmniReID++ベンチマークを提案する。 タスク固有の評価設定では、ギャラリーセットは特定のReIDタスクに従って分類される。 本稿では,新しいベースラインモデル IRM を提案する。 タスクに依存しないギャラリーセットから対象人物画像が検索されるタスクフリー評価設定では、新しいメモリバンク支援学習を用いたIRM++と呼ばれる新しい手法を提案する。 OmniReID++ ベンチマークによる IRM と IRM++ の大規模評価は,提案手法の優位性を実証し,10 個のテストセット上での最先端性能を実現した。 データセット、モデル、コードはhttps://github.com/hwz-zju/Instruct-ReIDで入手できる。

Human intelligence can retrieve any person according to both visual and language descriptions. However, the current computer vision community studies specific person re-identification (ReID) tasks in different scenarios separately, which limits the applications in the real world. This paper strives to resolve this problem by proposing a novel instruct-ReID task that requires the model to retrieve images according to the given image or language instructions. Instruct-ReID is the first exploration of a general ReID setting, where existing 6 ReID tasks can be viewed as special cases by assigning different instructions. To facilitate research in this new instruct-ReID task, we propose a large-scale OmniReID++ benchmark equipped with diverse data and comprehensive evaluation methods e.g., task specific and task-free evaluation settings. In the task-specific evaluation setting, gallery sets are categorized according to specific ReID tasks. We propose a novel baseline model, IRM, with an adaptive triplet loss to handle various retrieval tasks within a unified framework. For task-free evaluation setting, where target person images are retrieved from task-agnostic gallery sets, we further propose a new method called IRM++ with novel memory bank-assisted learning. Extensive evaluations of IRM and IRM++ on OmniReID++ benchmark demonstrate the superiority of our proposed methods, achieving state-of-the-art performance on 10 test sets. The datasets, the model, and the code will be available at https://github.com/hwz-zju/Instruct-ReID
翻訳日:2024-05-29 22:32:09 公開日:2024-05-28
# 3Dガウスのプリミティブ・プルーニングは破滅的現場の破壊を防ぐ

SafeguardGS: 3D Gaussian Primitive Pruning While Avoiding Catastrophic Scene Destruction ( http://arxiv.org/abs/2405.17793v1 )

ライセンス: Link先を確認
Yongjae Lee, Zhaoliang Zhang, Deliang Fan, (参考訳) 3D Gaussian Splatting (3DGS)は、リアルタイムレンダリング速度を達成しつつ、トップノッチレンダリングの品質を実証し、新しいビュー合成において大きな進歩を遂げた。 しかし、3DGSの過度に多くのガウスプリミティブは、フレーム/秒(FPS)を遅くし、かなりのメモリコストを必要とするため、ローエンドデバイスでは好ましくない。 この問題に対処するために、多くのフォローアップ研究は、レンダリング性能を最適化するために、様々なプルーニング技術(しばしば異なるスコア関数と組み合わせて)を提案している。 それでも、すべてのテクニックに対する効果と影響に関する包括的な議論は欠落している。 本稿では,まず3DGSプルーニング手法を2つのタイプに分類する:クロスビュープルーニングとピクセルワイズプルーニング。 その後の実験では,極端ガウスプリミティブデシメーションの下でのクロスビュープルーニングは破滅的な品質低下をもたらすが,画素ワイドプルーニング技術は比較的高いレンダリング品質を維持できるだけでなく,最小限のプルーニング境界を提供する。 そこで本研究では,複数種類の楽譜関数を提案し,色重み付けされた楽譜関数が他者より優れていることを実証的に発見し,レンダリングのための重要なプリミティブを識別する。 我々の研究は、将来の作業のために3DGSプルーニング戦略を最適化するための貴重な洞察を提供すると信じています。

3D Gaussian Splatting (3DGS) has made a significant stride in novel view synthesis, demonstrating top-notch rendering quality while achieving real-time rendering speed. However, the excessively large number of Gaussian primitives resulting from 3DGS' suboptimal densification process poses a major challenge, slowing down frame-per-second (FPS) and demanding considerable memory cost, making it unfavorable for low-end devices. To cope with this issue, many follow-up studies have suggested various pruning techniques, often in combination with different score functions, to optimize rendering performance. Nonetheless, a comprehensive discussion regarding their effectiveness and implications across all techniques is missing. In this paper, we first categorize 3DGS pruning techniques into two types: Cross-view pruning and pixel-wise pruning, which differ in their approaches to rank primitives. Our subsequent experiments reveal that while cross-view pruning leads to disastrous quality drops under extreme Gaussian primitives decimation, the pixel-wise pruning technique not only sustains relatively high rendering quality with minuscule performance degradation but also provides a reasonable minimum boundary for pruning. Building on this observation, we further propose multiple variations of score functions and empirically discover that the color-weighted score function outperforms others for discriminating insignificant primitives for rendering. We believe our research provides valuable insights for optimizing 3DGS pruning strategies for future works.
翻訳日:2024-05-29 22:22:25 公開日:2024-05-28
# 階層探索-探索トレードオフによる文脈MDPのオフラインOracle効率学習

Offline Oracle-Efficient Learning for Contextual MDPs via Layerwise Exploration-Exploitation Tradeoff ( http://arxiv.org/abs/2405.17796v1 )

ライセンス: Link先を確認
Jian Qian, Haichen Hu, David Simchi-Levi, (参考訳) 近年、文脈的帯域幅からオフライン回帰への統計的・計算的削減(Simchi-Levi and Xu, 2021)の発見により、我々は水平H(H層CMDP)による一般的な(確率的)文脈マルコフ決定過程(CMDP)問題に対処した。 本稿では, 実現可能性仮定に基づき, CMDP からオフライン密度推定への還元, すなわち, 真の基盤となるCMDP を含むモデルクラス M を事前に提供する。 我々は,O(HlogT)のみをオフライン密度推定アルゴリズム(oracle)に呼び出す,効率的で統計的に近似的なアルゴリズムを開発した。 この数は、T が事前に知られている場合、O(HloglogT) にさらに還元することができる。 本研究は, モデルクラスの構造的仮定を課さずに, CMDPからオフライン密度推定への最適化を初めて行ったものである。 本アルゴリズムの特筆すべき特徴は,CMDPの層状構造に対応するため,層状探索・探索トレードオフの設計である。 さらに,本アルゴリズムは汎用的で,報酬なし強化学習における純粋探索作業に適用可能である。

Motivated by the recent discovery of a statistical and computational reduction from contextual bandits to offline regression (Simchi-Levi and Xu, 2021), we address the general (stochastic) Contextual Markov Decision Process (CMDP) problem with horizon H (as known as CMDP with H layers). In this paper, we introduce a reduction from CMDPs to offline density estimation under the realizability assumption, i.e., a model class M containing the true underlying CMDP is provided in advance. We develop an efficient, statistically near-optimal algorithm requiring only O(HlogT) calls to an offline density estimation algorithm (or oracle) across all T rounds of interaction. This number can be further reduced to O(HloglogT) if T is known in advance. Our results mark the first efficient and near-optimal reduction from CMDPs to offline density estimation without imposing any structural assumptions on the model class. A notable feature of our algorithm is the design of a layerwise exploration-exploitation tradeoff tailored to address the layerwise structure of CMDPs. Additionally, our algorithm is versatile and applicable to pure exploration tasks in reward-free reinforcement learning.
翻訳日:2024-05-29 22:22:25 公開日:2024-05-28
# 言語モデルにおけるパラメータの活性化パターンの探索

Exploring Activation Patterns of Parameters in Language Models ( http://arxiv.org/abs/2405.17799v1 )

ライセンス: Link先を確認
Yudong Wang, Damai Dai, Zhifang Sui, (参考訳) ほとんどの研究は、大きな言語モデルを内部の動作メカニズムを深く理解せずにブラックボックスとして扱う。 LLMの内部表現を説明するために,モデルパラメータのアクティベーションレベルを評価するための勾配に基づく計量法を提案する。 この測定値に基づいて3つの予備的な結果を得た。 1)入力が同じドメインにある場合、浅い層のパラメータは密に活性化されるため、パラメータの大部分が出力に大きな影響を与える。 対照的に、深層層のパラメータはわずかに活性化される。 2) 入力が異なる領域にまたがる場合, 浅い層内のパラメータは, 深い層よりも活性化挙動において高い類似性を示す。 3) 深層層では, 活性化パラメータの分布の類似性は経験的データ関連性と正の相関関係を示した。 さらに,これらの知見を固形化するための3つの検証実験を開発した。 1) 第一の発見から, 異なる層に対して異なるプルーンの比率を設定しようと試み, この手法は, モデルプルーニングに有用であることがわかった。 2) 1つのキャリブレーション・セットに基づくプルーンド・モデルでは,2番目のキャリブレーション・タスクよりも,キャリブレーション・タスクに関連するタスクを処理できることがわかった。 第三に、STS-B と SICK のベンチマークから、一貫性のあるセマンティクスを持つ2つの文は、深い層で同様のパラメータ活性化パターンを共有する傾向にあり、これは第3の発見と一致する。 我々の研究は、LSMにおけるパラメータ活性化の挙動に光を当てており、これらの発見がより実用的な応用を刺激する可能性があることを願っている。

Most work treats large language models as black boxes without in-depth understanding of their internal working mechanism. In order to explain the internal representations of LLMs, we propose a gradient-based metric to assess the activation level of model parameters. Based on this metric, we obtain three preliminary findings. (1) When the inputs are in the same domain, parameters in the shallow layers will be activated densely, which means a larger portion of parameters will have great impacts on the outputs. In contrast, parameters in the deep layers are activated sparsely. (2) When the inputs are across different domains, parameters in shallow layers exhibit higher similarity in the activation behavior than deep layers. (3) In deep layers, the similarity of the distributions of activated parameters is positively correlated to the empirical data relevance. Further, we develop three validation experiments to solidify these findings. (1) Firstly, starting from the first finding, we attempt to configure different prune ratios for different layers, and find this method can benefit model pruning. (2) Secondly, we find that a pruned model based on one calibration set can better handle tasks related to the calibration task than those not related, which validate the second finding. (3) Thirdly, Based on the STS-B and SICK benchmark, we find that two sentences with consistent semantics tend to share similar parameter activation patterns in deep layers, which aligns with our third finding. Our work sheds light on the behavior of parameter activation in LLMs, and we hope these findings will have the potential to inspire more practical applications.
翻訳日:2024-05-29 22:22:24 公開日:2024-05-28
# タンパク質変異効果予測のための多レベル相互作用モデリング

Multi-level Interaction Modeling for Protein Mutational Effect Prediction ( http://arxiv.org/abs/2405.17802v1 )

ライセンス: Link先を確認
Yuanle Mo, Xin Hong, Bowen Gao, Yinjun Jia, Yanyan Lan, (参考訳) タンパク質とタンパク質の相互作用は多くの生物学的過程において中心的なメディエーターである。 変異が相互作用に与える影響を正確に予測することは、これらの相互作用の調節を導くのに不可欠である。 変異残基は異なる側鎖配座を示し、背骨配座が変化し、最終的にタンパク質間の結合親和性に影響を与える。 しかし、既存の手法は一般的にサイドチェーンレベルの相互作用モデリングにのみ焦点をあてており、結果として準最適予測をもたらす。 本研究では, 自己教師型マルチレベル事前学習フレームワークProMIMを提案する。 実験では、ProMIMは標準ベンチマークのすべてのベースライン、特にバックボーンのコンフォメーションに大きな変化が生じる可能性のある突然変異に対して、優れたパフォーマンスを示す。 さらに、SARS-CoV-2変異効果予測および抗体最適化のためのゼロショット評価の結果は、新しい治療法や新薬を開発するための強力な次世代ツールとしてのProMIMの可能性を示している。

Protein-protein interactions are central mediators in many biological processes. Accurately predicting the effects of mutations on interactions is crucial for guiding the modulation of these interactions, thereby playing a significant role in therapeutic development and drug discovery. Mutations generally affect interactions hierarchically across three levels: mutated residues exhibit different sidechain conformations, which lead to changes in the backbone conformation, eventually affecting the binding affinity between proteins. However, existing methods typically focus only on sidechain-level interaction modeling, resulting in suboptimal predictions. In this work, we propose a self-supervised multi-level pre-training framework, ProMIM, to fully capture all three levels of interactions with well-designed pretraining objectives. Experiments show ProMIM outperforms all the baselines on the standard benchmark, especially on mutations where significant changes in backbone conformations may occur. In addition, leading results from zero-shot evaluations for SARS-CoV-2 mutational effect prediction and antibody optimization underscore the potential of ProMIM as a powerful next-generation tool for developing novel therapeutic approaches and new drugs.
翻訳日:2024-05-29 22:22:24 公開日:2024-05-28
# 文法的誤り訂正のための一般言語モデルによる検出補正構造

Detection-Correction Structure via General Language Model for Grammatical Error Correction ( http://arxiv.org/abs/2405.17804v1 )

ライセンス: Link先を確認
Wei Li, Houfeng Wang, (参考訳) 文法的誤り訂正(英: Grammatical error correction, GEC)とは、最小限の編集でテキストを修正するためのタスクである。 しかし、以前の研究は主に直接修正に焦点を合わせており、両者を単一のモデルに統合する以前の試みは存在しなかった。 さらに,大規模言語モデル (LLM) による検出補正パラダイムの探索も未開発である。 本稿では,ジェネラル言語モデル(GLM)に基づく,DeCoGLMという名前の総合的な検出補正構造を提案する。 検出フェーズはフォールトトレラント検出テンプレートを使用し、補正フェーズは自己回帰マスクの埋め込みを利用して局所的な誤り訂正を行う。 入力トークンの戦略的構成とアテンションマスクの修正により,単一モデル内でのマルチタスク学習が促進される。 我々のモデルは、英語と中国語のECデータセットの最先端モデルと競合する性能を示す。 さらなる実験では、LCMにおける検出補正構造の有効性が示され、GECにとって有望な方向が示唆された。

Grammatical error correction (GEC) is a task dedicated to rectifying texts with minimal edits, which can be decoupled into two components: detection and correction. However, previous works have predominantly focused on direct correction, with no prior efforts to integrate both into a single model. Moreover, the exploration of the detection-correction paradigm by large language models (LLMs) remains underdeveloped. This paper introduces an integrated detection-correction structure, named DeCoGLM, based on the General Language Model (GLM). The detection phase employs a fault-tolerant detection template, while the correction phase leverages autoregressive mask infilling for localized error correction. Through the strategic organization of input tokens and modification of attention masks, we facilitate multi-task learning within a single model. Our model demonstrates competitive performance against the state-of-the-art models on English and Chinese GEC datasets. Further experiments present the effectiveness of the detection-correction structure in LLMs, suggesting a promising direction for GEC.
翻訳日:2024-05-29 22:22:24 公開日:2024-05-28
# TransVIP:音声・等時保存型音声翻訳システム

TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation ( http://arxiv.org/abs/2405.17809v1 )

ライセンス: Link先を確認
Chenyang Le, Yao Qian, Dongmei Wang, Long Zhou, Shujie Liu, Xiaofei Wang, Midia Yousefi, Yanmin Qian, Jinyu Li, Sheng Zhao, Michael Zeng, (参考訳) ある言語から別の言語へ直接翻訳する研究は、エンドツーエンドの音声から音声への翻訳として知られている。 しかし、ほとんどのエンドツーエンドモデルはカスケードモデル、すなわち音声認識、機械翻訳、テキスト音声モデルの結合によるパイプラインフレームワークを上回ることに苦慮している。 主な課題は、直接翻訳タスクとデータの不足に関わる固有の複雑さに起因している。 本研究では,多様なデータセットをカスケード方式で活用する新しいモデルフレームワークであるTransVIPを提案する。 さらに,2つの分離エンコーダを提案し,話者の音声特性とアイソクロニーを翻訳中の音源音声から保持し,ビデオダビングなどのシナリオに非常に適している。 フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。

There is a rising interest and trend in research towards directly translating speech from one language to another, known as end-to-end speech-to-speech translation. However, most end-to-end models struggle to outperform cascade models, i.e., a pipeline framework by concatenating speech recognition, machine translation and text-to-speech models. The primary challenges stem from the inherent complexities involved in direct translation tasks and the scarcity of data. In this study, we introduce a novel model framework TransVIP that leverages diverse datasets in a cascade fashion yet facilitates end-to-end inference through joint probability. Furthermore, we propose two separated encoders to preserve the speaker's voice characteristics and isochrony from the source speech during the translation process, making it highly suitable for scenarios such as video dubbing. Our experiments on the French-English language pair demonstrate that our model outperforms the current state-of-the-art speech-to-speech translation model.
翻訳日:2024-05-29 22:22:24 公開日:2024-05-28
# Mani-GS:三角形メッシュを用いたガウス平滑化操作

Mani-GS: Gaussian Splatting Manipulation with Triangular Mesh ( http://arxiv.org/abs/2405.17811v1 )

ライセンス: Link先を確認
Xiangjun Gao, Xiaoyu Li, Yiyu Zhuang, Qi Zhang, Wenbo Hu, Chaopeng Zhang, Yao Yao, Ying Shan, Long Quan, (参考訳) NeRF(Neural Radiance Fields)のようなニューラルな3D表現は、フォトリアリスティックなレンダリング結果を生成するのに優れているが、コンテンツ作成に不可欠な操作や編集の柔軟性に欠ける。 従来の研究は、標準空間でNeRFを変形させたり、明示的なメッシュに基づいて放射場を操作することでこの問題に対処しようと試みてきた。 しかし、NeRFの操作は高度に制御可能ではなく、長いトレーニングと推論時間を必要とする。 3Dガウススプラッティング(3DGS)の出現により、より高速なトレーニングとレンダリング速度を持つ明示的なポイントベース3D表現を用いて、非常に高忠実な新規ビュー合成を実現することができる。 しかし、レンダリング品質を維持しながら3DGSを自由に操作する効果的な手段がまだ存在しない。 本研究では,マニピュラブルな写真リアリスティックレンダリングを実現するための課題に取り組むことを目的とする。 本稿では,三角メッシュを用いて3DGSを直接自己適応で操作する手法を提案する。 このアプローチにより、様々な種類のガウス演算のための様々なアルゴリズムを設計する必要がなくなる。 三角形形状を意識したガウス結合と適応法を用いることで、3DGSの操作を実現し、操作後の高忠実性レンダリングを維持できる。 我々のアプローチは、高品質なレンダリングを維持しながら、大きな変形、局所的な操作、ソフトボディシミュレーションを処理できる。 さらに,本手法は3DGSから抽出した不正確なメッシュに対しても有効であることを示す。 実験により,本手法の有効性とベースラインアプローチに対する優位性を実証した。

Neural 3D representations such as Neural Radiance Fields (NeRF), excel at producing photo-realistic rendering results but lack the flexibility for manipulation and editing which is crucial for content creation. Previous works have attempted to address this issue by deforming a NeRF in canonical space or manipulating the radiance field based on an explicit mesh. However, manipulating NeRF is not highly controllable and requires a long training and inference time. With the emergence of 3D Gaussian Splatting (3DGS), extremely high-fidelity novel view synthesis can be achieved using an explicit point-based 3D representation with much faster training and rendering speed. However, there is still a lack of effective means to manipulate 3DGS freely while maintaining rendering quality. In this work, we aim to tackle the challenge of achieving manipulable photo-realistic rendering. We propose to utilize a triangular mesh to manipulate 3DGS directly with self-adaptation. This approach reduces the need to design various algorithms for different types of Gaussian manipulation. By utilizing a triangle shape-aware Gaussian binding and adapting method, we can achieve 3DGS manipulation and preserve high-fidelity rendering after manipulation. Our approach is capable of handling large deformations, local manipulations, and soft body simulations while keeping high-quality rendering. Furthermore, we demonstrate that our method is also effective with inaccurate meshes extracted from 3DGS. Experiments conducted demonstrate the effectiveness of our method and its superiority over baseline approaches.
翻訳日:2024-05-29 22:22:24 公開日:2024-05-28
# FAIntbench: テキスト・画像モデルにおけるバイアス評価のための完全かつ高精度なベンチマーク

FAIntbench: A Holistic and Precise Benchmark for Bias Evaluation in Text-to-Image Models ( http://arxiv.org/abs/2405.17814v1 )

ライセンス: Link先を確認
Hanjun Luo, Ziye Deng, Ruizhe Chen, Zuozhu Liu, (参考訳) テキスト・ツー・イメージ(T2I)モデルへの急速な開発と参入障壁の低減は、出力のバイアスに関する懸念を提起しているが、既存の研究ではバイアスの全体的定義と評価の枠組みが欠如しており、デバイアス手法の強化が制限されている。 この問題に対処するために、我々はT2Iモデルにおけるバイアスの総合的かつ正確なベンチマークであるFAIntbenchを紹介する。 限定的な側面でバイアスを評価する既存のベンチマークとは対照的に、FAIntbenchはバイアスの表示、バイアスの可視性、取得された属性、保護された属性の4つの次元からバイアスを評価する。 FAIntbenchを7種類の大規模T2Iモデル評価に適用し, 各種バイアスの同定にFAIntbenchの有効性を実証した。 また, 蒸留の副作用など, バイアスに関する新たな研究課題も明らかにした。 この結果は予備的であり、T2Iモデルのバイアスを軽減することを目的とした将来の研究を進めるためのFAIntbenchの可能性を強調している。 私たちのベンチマークは再現性を確保するために公開されています。

The rapid development and reduced barriers to entry for Text-to-Image (T2I) models have raised concerns about the biases in their outputs, but existing research lacks a holistic definition and evaluation framework of biases, limiting the enhancement of debiasing techniques. To address this issue, we introduce FAIntbench, a holistic and precise benchmark for biases in T2I models. In contrast to existing benchmarks that evaluate bias in limited aspects, FAIntbench evaluate biases from four dimensions: manifestation of bias, visibility of bias, acquired attributes, and protected attributes. We applied FAIntbench to evaluate seven recent large-scale T2I models and conducted human evaluation, whose results demonstrated the effectiveness of FAIntbench in identifying various biases. Our study also revealed new research questions about biases, including the side-effect of distillation. The findings presented here are preliminary, highlighting the potential of FAIntbench to advance future research aimed at mitigating the biases in T2I models. Our benchmark is publicly available to ensure the reproducibility.
翻訳日:2024-05-29 22:22:24 公開日:2024-05-28
# 視覚アンカーはマルチモーダル大言語モデルのための強力な情報集約器である

Visual Anchors Are Strong Information Aggregators For Multimodal Large Language Model ( http://arxiv.org/abs/2405.17815v1 )

ライセンス: Link先を確認
Haogeng Liu, Quanzeng You, Xiaotian Han, Yongfei Liu, Huaibo Huang, Ran He, Hongxia Yang, (参考訳) MLLM(Multimodal Large Language Models)の領域では、事前訓練されたビジョンエンコーダとLLM(Large Language Models)を結びつける上で、視覚言語コネクタが重要な役割を果たす。 その重要性にもかかわらず、視覚言語コネクタは比較的研究が進んでいない。 本研究では,低計算コストを維持しつつ,MLLMの高精度化を実現するための強力な視覚言語コネクタを提案する。 まず、視覚変換器における視覚アンカーの存在を明らかにし、それらを抽出するためのコスト効率の良い探索アルゴリズムを提案する。 AcFormerは,事前学習時に得られた視覚的アンカーから得られる豊富な知識を活かし,情報収集を導く新しい視覚言語コネクタである。 大規模な実験により,提案手法はベースラインに比べて計算コストを約3分の2削減し,同時にベースライン法より優れていることを示した。 これはAcFormerの有効性と効率性を強調している。

In the realm of Multimodal Large Language Models (MLLMs), vision-language connector plays a crucial role to link the pre-trained vision encoders with Large Language Models (LLMs). Despite its importance, the vision-language connector has been relatively less explored. In this study, we aim to propose a strong vision-language connector that enables MLLMs to achieve high accuracy while maintain low computation cost. We first reveal the existence of the visual anchors in Vision Transformer and propose a cost-effective search algorithm to extract them. Building on these findings, we introduce the Anchor Former (AcFormer), a novel vision-language connector designed to leverage the rich prior knowledge obtained from these visual anchors during pretraining, guiding the aggregation of information. Through extensive experimentation, we demonstrate that the proposed method significantly reduces computational costs by nearly two-thirds compared with baseline, while simultaneously outperforming baseline methods. This highlights the effectiveness and efficiency of AcFormer.
翻訳日:2024-05-29 22:22:24 公開日:2024-05-28
# アウト・オブ・ディストリビューション検出のためのニューラル・コラプスに基づく探索的特徴分離

Pursuing Feature Separation based on Neural Collapse for Out-of-Distribution Detection ( http://arxiv.org/abs/2405.17816v1 )

ライセンス: Link先を確認
Yingwen Wu, Ruiji Yu, Xinwen Cheng, Zhengbao He, Xiaolin Huang, (参考訳) オープンな世界では、ラベルが分布内(ID)サンプルと不一致であるOOD(out-of-distriion)データを検出することは、信頼性の高いディープニューラルネットワーク(DNN)にとって重要である。 より優れた検出性能を実現するために、モデル出力に定義された分離損失を通じてIDとOODデータの差を増幅するために、補助的なOODデータセットを用いてモデルを微調整する手法を提案する。 しかしながら、これらの研究のどれも、特徴格差の拡大を考慮せず、出力よりも効果的であるべきである。 主な困難はOODサンプルの多様性であり、ID特徴と区別するために損失を設計するだけでなく、それらの特徴分布を記述するのが難しくなる。 本稿では,ニューラル・コラプス(NC)と呼ばれるID特徴の集約特性に基づいて,問題を適切に阻止する。 NCは、クラス内のIDサンプルの垂直的な特徴が、対応するクラスの最後の層重みとほぼ同一であることを意味する。 そこで我々はOrthLossと呼ばれるシンプルだが効果的な損失を提案する。OrthLossはNCによって形成されるID特徴の主部分空間に直交する部分空間におけるOODデータの特徴を結合する。 このように、IDとOODのサンプルの特徴は異なる次元で分離される。 出力差を純粋に増大させるのではなく,特徴分離損失を最適化することにより,新たなデータ拡張やサンプリングを行わずにCIFARベンチマーク上でのSOTA性能を実現し,OOD検出における特徴分離の重要性を示す。 コードは公開されます。

In the open world, detecting out-of-distribution (OOD) data, whose labels are disjoint with those of in-distribution (ID) samples, is important for reliable deep neural networks (DNNs). To achieve better detection performance, one type of approach proposes to fine-tune the model with auxiliary OOD datasets to amplify the difference between ID and OOD data through a separation loss defined on model outputs. However, none of these studies consider enlarging the feature disparity, which should be more effective compared to outputs. The main difficulty lies in the diversity of OOD samples, which makes it hard to describe their feature distribution, let alone design losses to separate them from ID features. In this paper, we neatly fence off the problem based on an aggregation property of ID features named Neural Collapse (NC). NC means that the penultimate features of ID samples within a class are nearly identical to the last layer weight of the corresponding class. Based on this property, we propose a simple but effective loss called OrthLoss, which binds the features of OOD data in a subspace orthogonal to the principal subspace of ID features formed by NC. In this way, the features of ID and OOD samples are separated by different dimensions. By optimizing the feature separation loss rather than purely enlarging output differences, our detection achieves SOTA performance on CIFAR benchmarks without any additional data augmentation or sampling, demonstrating the importance of feature separation in OOD detection. The code will be published.
翻訳日:2024-05-29 22:22:24 公開日:2024-05-28
# 臨床応用のための骨格型運動エンコーダモデルのベンチマーク:歩行系列におけるパーキンソン病重症度の推定

Benchmarking Skeleton-based Motion Encoder Models for Clinical Applications: Estimating Parkinson's Disease Severity in Walking Sequences ( http://arxiv.org/abs/2405.17817v1 )

ライセンス: Link先を確認
Vida Adeli, Soroush Mehraban, Yasamin Zarghami, Irene Ballester, Andrea Sabo, Andrea Iaboni, Babak Taati, (参考訳) 本研究では,PD患者の歩行パターンを解析するための大規模人体運動データセットを用いた一般的な人体運動エンコーダの応用について検討した。 これらのモデルは、ヒトの生体力学的知識の豊富さを学習しているが、パーキンソン歩行などの病理学的運動の分析における効果は、まだ完全には検証されていない。 本研究では, 運動障害社会の予測能力について, モーションキャプチャーデータから, パーキンソン病評価尺度 (MDS-UPDRS-III) の歩行スコアを推定し, 事前訓練した6つの人体動作エンコーダモデルについて, 比較枠組みを提案し, 評価を行った。 われわれはこれらのデータを、最近リリースされたPD患者を含む大規模なPDデータセットにおいて、伝統的な歩行特徴に基づく予測モデルと比較した。 機能ベースのモデルは現在、重み付けされた平均精度、精度、リコール、F1スコアを示している。 比較的類似した結果を持つモーションエンコーダモデルは、臨床環境でのスケーラビリティと効率性を示す。 このポテンシャルは、PDトレーニングセットの微調整時にエンコーダモデルの性能が向上したことによる。 ヒトの6つの運動モデルのうち4つは、オン・メディケーション状態とオフ・メディケーション状態の間に有意な差がある予測スコアを提供した。 この結果から, 運動エンコーダモデルの臨床的変化に対する感受性が示唆された。 また、これらのモデルの継続的なカスタマイズの必要性を強調し、疾患特有の特徴をよりよく捉え、労働集約的な特徴工学への依存を減らす。 最後に,臨床環境における骨格型モーションエンコーダモデルの解析のためのベンチマークを構築した。 私たちの知る限りでは、最先端のモデルをテストし、臨床環境での競争を可能にするベンチマークを提供するのは、今回が初めてです。 コードとベンチマークのリーダーボードは、コードで入手できる。

This study investigates the application of general human motion encoders trained on large-scale human motion datasets for analyzing gait patterns in PD patients. Although these models have learned a wealth of human biomechanical knowledge, their effectiveness in analyzing pathological movements, such as parkinsonian gait, has yet to be fully validated. We propose a comparative framework and evaluate six pre-trained state-of-the-art human motion encoder models on their ability to predict the Movement Disorder Society - Unified Parkinson's Disease Rating Scale (MDS-UPDRS-III) gait scores from motion capture data. We compare these against a traditional gait feature-based predictive model in a recently released large public PD dataset, including PD patients on and off medication. The feature-based model currently shows higher weighted average accuracy, precision, recall, and F1-score. Motion encoder models with closely comparable results demonstrate promise for scalability and efficiency in clinical settings. This potential is underscored by the enhanced performance of the encoder model upon fine-tuning on PD training set. Four of the six human motion models examined provided prediction scores that were significantly different between on- and off-medication states. This finding reveals the sensitivity of motion encoder models to nuanced clinical changes. It also underscores the necessity for continued customization of these models to better capture disease-specific features, thereby reducing the reliance on labor-intensive feature engineering. Lastly, we establish a benchmark for the analysis of skeleton-based motion encoder models in clinical settings. To the best of our knowledge, this is the first study to provide a benchmark that enables state-of-the-art models to be tested and compete in a clinical context. Codes and benchmark leaderboard are available at code.
翻訳日:2024-05-29 22:22:24 公開日:2024-05-28
# 自己教師付き表現による任意の分解能を有するハイパースペクトル・マルチスペクトル画像融合

Hyperspectral and multispectral image fusion with arbitrary resolution through self-supervised representations ( http://arxiv.org/abs/2405.17818v1 )

ライセンス: Link先を確認
Ting Wang, Zipei Yan, Jizhou Li, Xile Zhao, Chao Wang, Michael Ng, (参考訳) 高分解能マルチスペクトル像 (HR-MSI) と低分解能ハイパースペクトル像 (LR-HSI) の融合は, HSI超解像 (SR) の実現に有効である。 従来の研究は主に、潜時高分解能ハイパースペクトル像(HR-HSI)の後方分布を推定することに集中しており、潜時高分解能高分解能画像と観測画像との差から計算された適切な画像の事前及び可能性を活用している。 低位は, 行列分解による潜在HSI特性の保存に際し顕著である。 しかし、この手法は2つのモードの次元内でのみ分解能を高める。 この制限を克服するために,2つのニューラル表現を行列分解に統合し,空間情報とスペクトル情報をキャプチャすることで,新しい連続低ランク分解(CLoRF)を提案する。 提案手法は,行列分解による低ランク化と神経表現による連続性の両方を自己監督的に利用することができる。 理論的には、提案された連続低ランク分解における低ランク特性とリプシッツ連続性を証明する。 実験では,ニューラルネットワークの再トレーニングを必要とせず,既存の手法をはるかに超え,ユーザの求める解像度を実現する。

The fusion of a low-resolution hyperspectral image (LR-HSI) with a high-resolution multispectral image (HR-MSI) has emerged as an effective technique for achieving HSI super-resolution (SR). Previous studies have mainly concentrated on estimating the posterior distribution of the latent high-resolution hyperspectral image (HR-HSI), leveraging an appropriate image prior and likelihood computed from the discrepancy between the latent HSI and observed images. Low rankness stands out for preserving latent HSI characteristics through matrix factorization among the various priors. However, this method only enhances resolution within the dimensions of the two modalities. To overcome this limitation, we propose a novel continuous low-rank factorization (CLoRF) by integrating two neural representations into the matrix factorization, capturing spatial and spectral information, respectively. This approach enables us to harness both the low rankness from the matrix factorization and the continuity from neural representation in a self-supervised manner. Theoretically, we prove the low-rank property and Lipschitz continuity in the proposed continuous low-rank factorization. Experimentally, our method significantly surpasses existing techniques and achieves user-desired resolutions without the need for neural network retraining.
翻訳日:2024-05-29 22:22:24 公開日:2024-05-28
# 樹木の森を見逃すな:大規模視覚言語モデルのための注意的視覚校正

Don't Miss the Forest for the Trees: Attentional Vision Calibration for Large Vision Language Models ( http://arxiv.org/abs/2405.17820v1 )

ライセンス: Link先を確認
Sangmin Woo, Donguk Kim, Jaehyuk Jang, Yubin Choi, Changick Kim, (参考訳) 本研究では,視覚的物体のきめ細かい理解を必要とするタスクにおいて,視覚的物体の視覚的認識に過度な注意を払って幻覚反応を起こす,LVLM(Large Vision Language Models)の課題に対処する。 注目度を下げるトークンは、単にオブジェクトの存在を認識することから、属性(色、位置など)を識別し、それらの関係を理解することまで、曖昧なオブジェクトの詳細を特定するために不可欠な情報を持っていることがわかりました。 盲点トークンに対する過度な強調と,ユーザの問い合わせに正確に応答するために,AVC(Atentional Vision Calibration)と呼ばれる手法を導入する。 復号フェーズにおいて、AVCは画像関連注意分布を分析して盲点を識別する。 次に、元の視覚トークンに条件付のロジットと、ブラインドトークンに条件付のロジットを対比することにより、次のトークン予測のためのロジットを動的に調整する。 これにより、盲点トークンへの依存が効果的に減少し、すべてのトークンに対するよりバランスの取れた考慮が促進される。 PPE, MME, AMBER などのベンチマークで AVC を検証し,LVLM におけるオブジェクト幻覚の緩和において,既存の復号化手法を一貫して上回っている。

This study addresses the issue observed in Large Vision Language Models (LVLMs), where excessive attention on a few image tokens, referred to as blind tokens, leads to hallucinatory responses in tasks requiring fine-grained understanding of visual objects. We found that tokens receiving lower attention weights often hold essential information for identifying nuanced object details -- ranging from merely recognizing object existence to identifying their attributes (color, position, etc.) and understanding their relationships. To counteract the over-emphasis on blind tokens and to accurately respond to user queries, we introduce a technique called Attentional Vision Calibration (AVC). During the decoding phase, AVC identifies blind tokens by analyzing the image-related attention distribution. It then dynamically adjusts the logits for the next token prediction by contrasting the logits conditioned on the original visual tokens with those conditioned on the blind tokens. This effectively lowers the dependency on blind tokens and promotes a more balanced consideration of all tokens. We validate AVC on benchmarks such as POPE, MME, and AMBER, where it consistently outperforms existing decoding techniques in mitigating object hallucinations in LVLMs.
翻訳日:2024-05-29 22:22:24 公開日:2024-05-28
# RITUAL:LVLMにおけるユニバーサルアンチハロシン化レバーとしてのランダム画像変換

RITUAL: Random Image Transformations as a Universal Anti-hallucination Lever in LVLMs ( http://arxiv.org/abs/2405.17821v1 )

ライセンス: Link先を確認
Sangmin Woo, Jaehyuk Jang, Donguk Kim, Yubin Choi, Changick Kim, (参考訳) 大規模視覚言語モデル(LVLM)の最近の進歩は、機械が視覚入力に基づいてテキスト応答を理解・生成する方法に革命をもたらした。 印象的な能力にもかかわらず、彼らはしばしば視覚情報を正確に反映しない「幻覚的」なアウトプットを生成し、信頼性と信頼性の課題を提起する。 対照的な復号法のような現在の手法は、生成されたトークンの元の確率分布と歪んだトークンとの対比によってこれらの問題に対処する努力をしてきたが、視覚的に忠実な出力を生成することは依然として困難である。 この研究では、我々の焦点を反対にシフトする: 元の確率分布を補完的に拡張できるものは何か? LVLMにおける幻覚に対する堅牢性を高めるため,RITUALと呼ばれる簡易なトレーニング不要な手法を提案する。 提案手法では,モデルが様々な視覚シナリオに露出することにより,幻覚的視覚的説明の可能性を軽減することを目的として,元の確率分布の補足としてランダムな画像変換を用いる。 実験の結果,変換画像の孤立的使用は当初は性能を低下させるが,これらの変換の戦略的実装は事実上有効な補完となることが示された。 特に,本手法は,現行のコントラスト復号法と互換性があり,外部モデルやコストのかかる自己フィードバック機構を必要としないため,実用的な追加である。 実験では、RITUALは、POPE、CHAIR、MMEを含むいくつかのオブジェクト幻覚ベンチマークにおいて、既存のコントラスト的復号法を著しく上回っている。

Recent advancements in Large Vision Language Models (LVLMs) have revolutionized how machines understand and generate textual responses based on visual inputs. Despite their impressive capabilities, they often produce "hallucinatory" outputs that do not accurately reflect the visual information, posing challenges in reliability and trustworthiness. Current methods such as contrastive decoding have made strides in addressing these issues by contrasting the original probability distribution of generated tokens with distorted counterparts; yet, generating visually-faithful outputs remains a challenge. In this work, we shift our focus to the opposite: What could serve as a complementary enhancement to the original probability distribution? We propose a simple, training-free method termed RITUAL to enhance robustness against hallucinations in LVLMs. Our approach employs random image transformations as complements to the original probability distribution, aiming to mitigate the likelihood of hallucinatory visual explanations by enriching the model's exposure to varied visual scenarios. Our empirical results show that while the isolated use of transformed images initially degrades performance, strategic implementation of these transformations can indeed serve as effective complements. Notably, our method is compatible with current contrastive decoding methods and does not require external models or costly self-feedback mechanisms, making it a practical addition. In experiments, RITUAL significantly outperforms existing contrastive decoding methods across several object hallucination benchmarks, including POPE, CHAIR, and MME.
翻訳日:2024-05-29 22:22:24 公開日:2024-05-28
# Conv-CoA:会話の連鎖による大規模言語モデルにおけるオープンドメイン質問応答の改善

Conv-CoA: Improving Open-domain Question Answering in Large Language Models via Conversational Chain-of-Action ( http://arxiv.org/abs/2405.17822v1 )

ライセンス: Link先を確認
Zhenyu Pan, Haozheng Luo, Manling Li, Han Liu, (参考訳) 本稿では,オープンドメイン会話質問回答(OCQA)のための会話連鎖(Conv-CoA)フレームワークを提案する。 文学と比較して、Conv-CoAは3つの大きな課題に対処している。 (i)リアルタイムやドメイン事実と矛盾する不信な幻覚 (二)会話シナリオにおける弱い推論性能、及び 三 会話情報検索における不満足な性能 我々の重要な貢献は、動的推論-検索機構で、質問の意図を抽出し、体系的なプロンプト、事前設計されたアクション、コンテキスト知識セット(CKS)の更新、新しいホップフィールドベースの検索器によって解決される推論チェーンに分解する。 提案手法は,我々の行動における会話情報検索の効率と精度を高めるために,資源効率の高いホップフィールド検索手法を提案する。 さらに,検索した知識と会話における回答の矛盾を検証し,解決するための対話型マルチ参照信頼スコア(Conv-MRFS)を提案する。 実証的に、我々は5つの異なる研究方向と2つの公開ベンチマークで、我々のフレームワークと23の最先端手法の比較を行う。 これらの比較により、我々のConv-CoAは精度と効率の両面で他の手法よりも優れていることが示された。

We present a Conversational Chain-of-Action (Conv-CoA) framework for Open-domain Conversational Question Answering (OCQA). Compared with literature, Conv-CoA addresses three major challenges: (i) unfaithful hallucination that is inconsistent with real-time or domain facts, (ii) weak reasoning performance in conversational scenarios, and (iii) unsatisfying performance in conversational information retrieval. Our key contribution is a dynamic reasoning-retrieval mechanism that extracts the intent of the question and decomposes it into a reasoning chain to be solved via systematic prompting, pre-designed actions, updating the Contextual Knowledge Set (CKS), and a novel Hopfield-based retriever. Methodologically, we propose a resource-efficiency Hopfield retriever to enhance the efficiency and accuracy of conversational information retrieval within our actions. Additionally, we propose a conversational-multi-reference faith score (Conv-MRFS) to verify and resolve conflicts between retrieved knowledge and answers in conversations. Empirically, we conduct comparisons between our framework and 23 state-of-the-art methods across five different research directions and two public benchmarks. These comparisons demonstrate that our Conv-CoA outperforms other methods in both the accuracy and efficiency dimensions.
翻訳日:2024-05-29 22:22:24 公開日:2024-05-28
# スペクトルトランニケーションカーネル:$C^*$-代数カーネルマシンにおける非可換性

Spectral Truncation Kernels: Noncommutativity in $C^*$-algebraic Kernel Machines ( http://arxiv.org/abs/2405.17823v1 )

ライセンス: Link先を確認
Yuka Hashimoto, Ayoub Hafid, Masahiro Ikeda, Hachem Kadri, (参考訳) 本稿では、非可換幾何学や$C^*$-代数の分野で議論されているスペクトルトランケーションに基づく、新しい正定値カーネルのクラスを提案する。 入力と出力が関数であり、多項式、積、分離可能なカーネルなどの既存のカーネルを一般化するカーネルに焦点を当て、カーネルに現れる製品の非可換性を記述したトランケーションパラメータ$n$を導入する。 n$が無限大になるとき、提案されたカーネルは既存の可換カーネルに傾向がある。 n$ が有限であれば、それらは異なる振る舞いを示し、非可換性はデータ関数領域に沿った相互作用を誘導する。 truncationパラメータ$n$は、性能向上につながる支配的要因であり、適切な$n$を設定することで、表現力と表現空間の複雑さのバランスをとることができる。 提案されたカーネルクラスの柔軟性により、以前の可換カーネルを超えることができる。

In this paper, we propose a new class of positive definite kernels based on the spectral truncation, which has been discussed in the fields of noncommutative geometry and $C^*$-algebra. We focus on kernels whose inputs and outputs are functions and generalize existing kernels, such as polynomial, product, and separable kernels, by introducing a truncation parameter $n$ that describes the noncommutativity of the products appearing in the kernels. When $n$ goes to infinity, the proposed kernels tend to the existing commutative kernels. If $n$ is finite, they exhibit different behavior, and the noncommutativity induces interactions along the data function domain. We show that the truncation parameter $n$ is a governing factor leading to performance enhancement: by setting an appropriate $n$, we can balance the representation power and the complexity of the representation space. The flexibility of the proposed class of kernels allows us to go beyond previous commutative kernels.
翻訳日:2024-05-29 20:16:52 公開日:2024-05-28
# mTREE:全スライド画像解析のためのマルチレベルテキストガイド型エンドツーエンド学習

mTREE: Multi-Level Text-Guided Representation End-to-End Learning for Whole Slide Image Analysis ( http://arxiv.org/abs/2405.17824v1 )

ライセンス: Link先を確認
Quan Liu, Ruining Deng, Can Cui, Tianyuan Yao, Vishwesh Nath, Yucheng Tang, Yuankai Huo, (参考訳) マルチモーダル学習は視覚とテキストのデータを統合するが、特にギガピクセル全スライド画像(WSI)のような大規模で高解像度の画像では、その病理像やテキスト解析への応用は依然として困難である。 現在のメソッドは通常、ローカル表現(パッチレベルなど)をグローバル機能(スライドレベルなど)に組み立てるために、手動のリージョンラベリングやマルチステージ学習に依存している。 しかし,テキストデータとマルチスケール画像表現をシームレスなエンドツーエンドプロセスで統合する方法は存在しない。 本研究では,マルチレベルテキストガイド表現のエンド・ツー・エンド・ラーニング(mTREE)を提案する。 この新しいテキスト誘導アプローチは、付随するテキスト病理情報からの情報を利用することで、マルチスケールのWSI表現を効果的にキャプチャする。 mTREEは、キー領域(グローバルからローカル)のローカライズとWSIレベルの画像テキスト表現(ローカルからグローバル)の開発を、統一されたエンドツーエンドの学習フレームワークに統合しています。 このモデルでは、テキスト情報は2つの目的を果たす: 第一に、重要領域を正確に識別するための注意マップとして機能し、第二に、画像の包括的表現にテキスト特徴を統合するための導管として機能する。 本研究は,2つの画像関連課題(分類と生存予測)において,mTREEの有効性を定量的に解析し,ベースラインよりも顕著に優れていることを示す。

Multi-modal learning adeptly integrates visual and textual data, but its application to histopathology image and text analysis remains challenging, particularly with large, high-resolution images like gigapixel Whole Slide Images (WSIs). Current methods typically rely on manual region labeling or multi-stage learning to assemble local representations (e.g., patch-level) into global features (e.g., slide-level). However, there is no effective way to integrate multi-scale image representations with text data in a seamless end-to-end process. In this study, we introduce Multi-Level Text-Guided Representation End-to-End Learning (mTREE). This novel text-guided approach effectively captures multi-scale WSI representations by utilizing information from accompanying textual pathology information. mTREE innovatively combines - the localization of key areas (global-to-local) and the development of a WSI-level image-text representation (local-to-global) - into a unified, end-to-end learning framework. In this model, textual information serves a dual purpose: firstly, functioning as an attention map to accurately identify key areas, and secondly, acting as a conduit for integrating textual features into the comprehensive representation of the image. Our study demonstrates the effectiveness of mTREE through quantitative analyses in two image-related tasks: classification and survival prediction, showcasing its remarkable superiority over baselines.
翻訳日:2024-05-29 20:16:52 公開日:2024-05-28
# 混合プロンプトによる拡散モデルパッチング

Diffusion Model Patching via Mixture-of-Prompts ( http://arxiv.org/abs/2405.17825v1 )

ライセンス: Link先を確認
Seokil Ham, Sangmin Woo, Jin-Young Kim, Hyojun Go, Byeongjun Park, Changick Kim, (参考訳) 本稿では,すでに収束した拡散モデルの性能を向上させるための簡易な手法である拡散モデルパッチング(DMP)を提案する。 DMPは、オリジナルのモデルを凍結したまま、モデルの入力空間に小さな学習可能なプロンプトを挿入する。 DMPの有効性は単にパラメータの追加によるものではなく、その動的ゲーティング機構に由来するもので、生成過程のすべてのステップ(例えば、逆認知ステップ)において学習可能なプロンプトのサブセットを選択・結合する。 この戦略は、我々が "mixture-of-prompts" と呼んでいるもので、モデルが各プロンプトの異なる専門知識に基づいて、本質的には最小限のパラメータで、各ステップでモデルの機能を"パッチ"することを可能にする。 DMPは、モデル収束によって通常、大幅な改善が期待できないシナリオであっても、当初トレーニングされていた同じデータセットでさらなるトレーニングを行うことで、モデルを強化します。 実験の結果、DMPはFFHQ 256x256上のDiT-L/2の収束FIDを10.38%向上させ、1.43%のパラメータ増加と50Kの追加訓練を繰り返した。

We present Diffusion Model Patching (DMP), a simple method to boost the performance of pre-trained diffusion models that have already reached convergence, with a negligible increase in parameters. DMP inserts a small, learnable set of prompts into the model's input space while keeping the original model frozen. The effectiveness of DMP is not merely due to the addition of parameters but stems from its dynamic gating mechanism, which selects and combines a subset of learnable prompts at every step of the generative process (e.g., reverse denoising steps). This strategy, which we term "mixture-of-prompts", enables the model to draw on the distinct expertise of each prompt, essentially "patching" the model's functionality at every step with minimal yet specialized parameters. Uniquely, DMP enhances the model by further training on the same dataset on which it was originally trained, even in a scenario where significant improvements are typically not expected due to model convergence. Experiments show that DMP significantly enhances the converged FID of DiT-L/2 on FFHQ 256x256 by 10.38%, achieved with only a 1.43% parameter increase and 50K additional training iterations.
翻訳日:2024-05-29 20:16:52 公開日:2024-05-28
# LDMol: 化学インフォーマティブな潜在空間を利用したテキスト合成分子拡散モデル

LDMol: Text-Conditioned Molecule Diffusion Model Leveraging Chemically Informative Latent Space ( http://arxiv.org/abs/2405.17829v1 )

ライセンス: Link先を確認
Jinho Chang, Jong Chul Ye, (参考訳) 生成モデルの最前線として拡散モデルの出現に伴い、多くの研究者が条件付き拡散モデルを用いた分子生成技術を提案している。 しかし、少数の原子と結合の中で高い絡み合った相関関係を持つ分子の基本的な性質から、モデルが自然言語としてより複雑になる条件と生データを結びつけることは困難になる。 そこで本研究では, LDMol と呼ばれる新しい潜在拡散モデルを提案する。 具体的には、化学情報的特徴空間を生成する分子エンコーダ、拡散変換器(DiT)を用いた自然言語条件の潜在拡散モデル、分子reの自己回帰デコーダの3つの構成要素から構成される。 特に、複数のSMILES表記が同じ分子を表現できることを認識し、化学情報量空間を抽出するために対照的な学習戦略を用いる。 LDMolは、テキストから分子生成ベンチマークで既存のベースラインを破るだけでなく、目に見えないシナリオでゼロショット推論も可能である。 さらに, LDMolは, 分子間検索やテキスト駆動による分子編集などの下流処理にも適用可能であることを示し, 拡散モデルとしての汎用性を示した。

With the emergence of diffusion models as the frontline of generative models, many researchers have proposed molecule generation techniques using conditional diffusion models. However, due to the fundamental nature of a molecule, which carries highly entangled correlations within a small number of atoms and bonds, it becomes difficult for a model to connect raw data with the conditions when the conditions become more complex as natural language. To address this, here we present a novel latent diffusion model dubbed LDMol, which enables a natural text-conditioned molecule generation. Specifically, LDMol is composed of three building blocks: a molecule encoder that produces a chemically informative feature space, a natural language-conditioned latent diffusion model using a Diffusion Transformer (DiT), and an autoregressive decoder for molecule re. In particular, recognizing that multiple SMILES notations can represent the same molecule, we employ a contrastive learning strategy to extract the chemical informative feature space. LDMol not only beats the existing baselines on the text-to-molecule generation benchmark but is also capable of zero-shot inference with unseen scenarios. Furthermore, we show that LDMol can be applied to downstream tasks such as molecule-to-text retrieval and text-driven molecule editing, demonstrating its versatility as a diffusion model.
翻訳日:2024-05-29 20:16:52 公開日:2024-05-28
# 破滅的フォーミング以上のもの:ドメイン特化LDMの汎用能力の統合

More Than Catastrophic Forgetting: Integrating General Capabilities For Domain-Specific LLMs ( http://arxiv.org/abs/2405.17830v1 )

ライセンス: Link先を確認
Chengyuan Liu, Shihang Wang, Yangyang Kang, Lizhi Qing, Fubang Zhao, Changlong Sun, Kun Kuang, Fei Wu, (参考訳) 大規模言語モデル(LLM)がドメイン固有のタスクに微調整された後に、一般的なタスクのパフォーマンスが低下する。 しかし,本論文では,汎用能力統合(General Capabilities Integration, GCI)と呼ばれる,CF以外のドメイン固有のLCMを実際に適用するには,汎用能力とドメイン知識の両方を単一インスタンス内で統合する必要がある,という課題を提起する。 GCIの目的は、新たに獲得した汎用能力を、新しいドメイン知識と共に保持するだけでなく、両方のスキルセットを結合的に調和して利用して、ドメイン固有のタスクのパフォーマンスを高めることである。 法的なドメインを例として、実践性に欠けることなく、トレーニングとテストの3つのグループを慎重に設計し、対応するデータセットを構築します。 ドメイン固有のシナリオにまたがって、より一般的な機能を組み込むために、LoRA上のマルチヘッドアテンションモジュールを利用するALoRAを導入し、先行トークンから現在のトークンへの直接的な情報転送を容易にする。 この拡張により、関心に応じてドメイン固有の知識と一般的な能力とを動的に切り替えることができる。 提案課題について大規模な実験を行った。 その結果,設定の意義と手法の有効性が示された。

The performance on general tasks decreases after Large Language Models (LLMs) are fine-tuned on domain-specific tasks, the phenomenon is known as Catastrophic Forgetting (CF). However, this paper presents a further challenge for real application of domain-specific LLMs beyond CF, called General Capabilities Integration (GCI), which necessitates the integration of both the general capabilities and domain knowledge within a single instance. The objective of GCI is not merely to retain previously acquired general capabilities alongside new domain knowledge, but to harmonize and utilize both sets of skills in a cohesive manner to enhance performance on domain-specific tasks. Taking legal domain as an example, we carefully design three groups of training and testing tasks without lacking practicability, and construct the corresponding datasets. To better incorporate general capabilities across domain-specific scenarios, we introduce ALoRA, which utilizes a multi-head attention module upon LoRA, facilitating direct information transfer from preceding tokens to the current one. This enhancement permits the representation to dynamically switch between domain-specific knowledge and general competencies according to the attention. Extensive experiments are conducted on the proposed tasks. The results exhibit the significance of our setting, and the effectiveness of our method.
翻訳日:2024-05-29 20:16:52 公開日:2024-05-28
# 政策グラディエント手法のモルフィケーション効果

Mollification Effects of Policy Gradient Methods ( http://arxiv.org/abs/2405.17832v1 )

ライセンス: Link先を確認
Tao Wang, Sylvia Herbert, Sicun Gao, (参考訳) 政策勾配法により、複雑な非滑らかな最適化景観を生成する高非線形ダイナミクスを含むシステムであっても、深い強化学習(RL)により、継続的な制御問題に挑戦することができる。 本研究では, 目的関数をよりスムーズかつ容易に最適化できる一方で, 確率的目的が元の問題からさらに逸脱する, 効果的な政策探索を実現するために, 非平滑な最適化環境をどう動員するかを理解するための厳密な枠組みを開発する。 政策勾配法と逆熱方程式の解法との等価性を実証する。 PDE理論の逆熱方程式の不備に続き、確率性の下での政策勾配の利用に根本的な課題を提示する。 さらに,高調波解析におけるこの制限と不確実性原理を関連付け,RLにおける確率的ポリシによる探索の効果を理解する。 また,実際の軟化効果の肯定的側面と否定的側面の両方を示す実験結果も提示した。

Policy gradient methods have enabled deep reinforcement learning (RL) to approach challenging continuous control problems, even when the underlying systems involve highly nonlinear dynamics that generate complex non-smooth optimization landscapes. We develop a rigorous framework for understanding how policy gradient methods mollify non-smooth optimization landscapes to enable effective policy search, as well as the downside of it: while making the objective function smoother and easier to optimize, the stochastic objective deviates further from the original problem. We demonstrate the equivalence between policy gradient methods and solving backward heat equations. Following the ill-posedness of backward heat equations from PDE theory, we present a fundamental challenge to the use of policy gradient under stochasticity. Moreover, we make the connection between this limitation and the uncertainty principle in harmonic analysis to understand the effects of exploration with stochastic policies in RL. We also provide experimental results to illustrate both the positive and negative aspects of mollification effects in practice.
翻訳日:2024-05-29 20:16:52 公開日:2024-05-28
# 確率近似におけるステップサイズ推定の再検討

Revisiting Step-Size Assumptions in Stochastic Approximation ( http://arxiv.org/abs/2405.17834v1 )

ライセンス: Link先を確認
Caio Kalil Lauand, Sean Meyn, (参考訳) 多くの機械学習と最適化アルゴリズムは確率近似(SA)の枠組みに基づいて構築されており、ステップサイズ(または学習率)の選択は成功に不可欠である。 明確にするために、本稿では、特別なケースである $\alpha_n = \alpha_0 n^{-\rho}$ at iteration $n$, with $\rho \in [0,1]$ and $\alpha_0>0$ に焦点を当てる。 実際には$\rho=0$ (constant step-size)を取るのが一般的であるが、より理論的に指向した論文では、消滅する Step-size が好まれる。 特に、$\rho \in (1/2, 1)$の場合、平均二乗誤差(MSE)は$O(1/n)$の最適速度で収束し、中央極限定理(CLT)の共分散は正確な意味で最小となることが知られている。 この論文は、一般的なマルコフ的な設定でステップサイズの選択を再考する。 容易に検証可能な仮定の下で、以下の結論が得られる:$0<\rho<1$:$\bullet$パラメータ推定は確率1と収束し、任意の$p\ge 1$に対して$L_p$である。 $\bullet$ MSE は小さな $\rho$ に対して非常にゆっくりと収束し、平均化しても$O(\alpha_n^2)$ である。 任意の$\rho\in (0,1)$に対して、誤差 $\textit{covariance}$ が最適速度で消滅する推定結果の平均化結果、さらに CLT の共分散はポリアクとルパートの意味で最適である。 しかし、$\textit{bias}$が$O(\alpha_n)$で0に収束する必要十分条件が得られる。 これはそのような強い結論を得た最初の論文であり、$\rho \le 1/2$ を許容する。 大きな結論は、$\rho =0$ あるいは $\rho<1/2$ の選択は、選択した設定でのみ正当化されるということだ。

Many machine learning and optimization algorithms are built upon the framework of stochastic approximation (SA), for which the selection of step-size (or learning rate) is essential for success. For the sake of clarity, this paper focuses on the special case $\alpha_n = \alpha_0 n^{-\rho}$ at iteration $n$, with $\rho \in [0,1]$ and $\alpha_0>0$ design parameters. It is most common in practice to take $\rho=0$ (constant step-size), while in more theoretically oriented papers a vanishing step-size is preferred. In particular, with $\rho \in (1/2, 1)$ it is known that on applying the averaging technique of Polyak and Ruppert, the mean-squared error (MSE) converges at the optimal rate of $O(1/n)$ and the covariance in the central limit theorem (CLT) is minimal in a precise sense. The paper revisits step-size selection in a general Markovian setting. Under readily verifiable assumptions, the following conclusions are obtained provided $0<\rho<1$: $\bullet$ Parameter estimates converge with probability one, and also in $L_p$ for any $p\ge 1$. $\bullet$ The MSE may converge very slowly for small $\rho$, of order $O(\alpha_n^2)$ even with averaging. $\bullet$ For linear stochastic approximation the source of slow convergence is identified: for any $\rho\in (0,1)$, averaging results in estimates for which the error $\textit{covariance}$ vanishes at the optimal rate, and moreover the CLT covariance is optimal in the sense of Polyak and Ruppert. However, necessary and sufficient conditions are obtained under which the $\textit{bias}$ converges to zero at rate $O(\alpha_n)$. This is the first paper to obtain such strong conclusions while allowing for $\rho \le 1/2$. A major conclusion is that the choice of $\rho =0$ or even $\rho<1/2$ is justified only in select settings -- In general, bias may preclude fast convergence.
翻訳日:2024-05-29 20:16:52 公開日:2024-05-28
# Deform3DGS: Gassian Splatting を用いた高速手術シーン再構成のためのフレキシブル変形

Deform3DGS: Flexible Deformation for Fast Surgical Scene Reconstruction with Gaussian Splatting ( http://arxiv.org/abs/2405.17835v1 )

ライセンス: Link先を確認
Shuojue Yang, Qian Li, Daiyun Shen, Bingchen Gong, Qi Dou, Yueming Jin, (参考訳) 組織変形は正確な手術シーンの再構築に重要な課題となる。 再現性が高いにもかかわらず、既存の手法ではレンダリング速度が遅く、訓練時間が長く、術中適用性が制限されている。 リアルタイム3Dレンダリングの新技術である3D Gaussian Splattingの最近の進歩に触発された本研究は、内視鏡手術中に変形可能な組織に対して、Deform3DGSと呼ばれる新しい高速再構築フレームワークを提示する。 具体的には3D GSを点雲初期化を統合して再現性を向上させることで手術シーンに導入する。 さらに,個々のガウスレベルにおける組織変形動態を学習するためのフレキシブルな変形モデリング手法 (FDM) を提案する。 我々のFDMは、効率的な表現で表面の変形をモデル化することができ、リアルタイムなレンダリング性能を実現することができる。 さらに重要なことは、FDMは外科的シーンの再構築を著しく加速し、特に時間効率が重要となる術中環境において、かなりの臨床的価値を示すことである。 DaVinciのロボット手術ビデオを用いた実験では, 再現率の優れたPSNR (37.90) とレンダリング速度 (338.8 FPS) を示すとともに, トレーニング時間を1分/秒に短縮した。

Tissue deformation poses a key challenge for accurate surgical scene reconstruction. Despite yielding high reconstruction quality, existing methods suffer from slow rendering speeds and long training times, limiting their intraoperative applicability. Motivated by recent progress in 3D Gaussian Splatting, an emerging technology in real-time 3D rendering, this work presents a novel fast reconstruction framework, termed Deform3DGS, for deformable tissues during endoscopic surgery. Specifically, we introduce 3D GS into surgical scenes by integrating a point cloud initialization to improve reconstruction. Furthermore, we propose a novel flexible deformation modeling scheme (FDM) to learn tissue deformation dynamics at the level of individual Gaussians. Our FDM can model the surface deformation with efficient representations, allowing for real-time rendering performance. More importantly, FDM significantly accelerates surgical scene reconstruction, demonstrating considerable clinical values, particularly in intraoperative settings where time efficiency is crucial. Experiments on DaVinci robotic surgery videos indicate the efficacy of our approach, showcasing superior reconstruction fidelity PSNR: (37.90) and rendering speed (338.8 FPS) while substantially reducing training time to only 1 minute/scene.
翻訳日:2024-05-29 20:16:52 公開日:2024-05-28
# フェデレーションラーニングにおける革新的ネットワーク

An Innovative Networks in Federated Learning ( http://arxiv.org/abs/2405.17836v1 )

ライセンス: Link先を確認
Zavareh Bozorgasl, Hao Chen, (参考訳) 本稿では,Wavelet Kolmogorov-Arnold Networks(Wav-KAN)の連合学習への応用について述べる。 我々はクライアントにWav-KAN \cite{wav-kan}を実装した。 実際,連続ウェーブレット変換 (CWT) と離散ウェーブレット変換 (DWT) の両方を検討した。 さまざまなデータセットで大規模な実験を行い、解釈可能性、計算速度、トレーニング、テスト精度の点で、Wav-KANの優れた性能を実証した。 我々のフェデレート学習アルゴリズムは、ウェーブレットに基づくアクティベーション機能を統合し、重み、スケール、翻訳によってパラメータ化され、局所的およびグローバルなモデル性能を向上させる。 結果は、スケーラブルなニューラルネットワーク設計におけるウェーブレット選択の有効性を強調し、計算効率、ロバスト性、精度を大幅に改善したことを示している。

This paper presents the development and application of Wavelet Kolmogorov-Arnold Networks (Wav-KAN) in federated learning. We implemented Wav-KAN \cite{wav-kan} in the clients. Indeed, we have considered both continuous wavelet transform (CWT) and also discrete wavelet transform (DWT) to enable multiresolution capabaility which helps in heteregeneous data distribution across clients. Extensive experiments were conducted on different datasets, demonstrating Wav-KAN's superior performance in terms of interpretability, computational speed, training and test accuracy. Our federated learning algorithm integrates wavelet-based activation functions, parameterized by weight, scale, and translation, to enhance local and global model performance. Results show significant improvements in computational efficiency, robustness, and accuracy, highlighting the effectiveness of wavelet selection in scalable neural network design.
翻訳日:2024-05-29 20:16:52 公開日:2024-05-28
# 信頼とテロ: テキストの有害性は負のバイアスとパルチザンのネガティビティ

Trust and Terror: Hazards in Text Reveal Negatively Biased Credulity and Partisan Negativity Bias ( http://arxiv.org/abs/2405.17838v1 )

ライセンス: Link先を確認
Keith Burghardt, Daniel M. T. Fessler, Chyna Tang, Anne Pisor, Kristina Lerman, (参考訳) 感情や感情などのテキストの社会言語的な指標は、ソーシャルメディアの特徴をよりよく理解するために、ニューラルネットワークを用いて抽出されることが多い。 しかし、しばしば見落とされがちな指標は、テキスト内の危険の存在である。 最近の心理学的な研究によると、ハザードに関する言明は、利益に関する言明(負に偏った信条として知られる性質)よりも信頼でき、政治的リベラル派や保守派は、彼らがハザードを共有する頻度で異なることを示唆している。 そこで本研究では,新たにアノテートされたXポストの収集と,それ以前の研究でアノテートされた都市伝説に基づいて,ハザードに関する情報を検出する新しいモデルを構築した。 我々は,このモデルが良好に機能するだけでなく (例えば GPT-4 のようなゼロショットの人間のアノテータ・プロキシ) 、それらが抽出するハザード情報は,道徳的怒り,感情,脅威語など他の指標と強く相関していないことを示す。 (しかし、期待に反し、危険情報は恐怖などの感情と正の相関を持ち、喜びのような感情と負の相関がある。) 次に、このモデルを3つのデータセットに適用する: COVID-19に関するXポスト、2023年のハマス・イスラエル戦争に関するXポスト、そして新たな都市伝説のコレクション。 これらのデータから、各データセットに特有のハザードに関連する単語と、保守派やリベラル派といったユーザグループ間の言語の違いを明らかにし、これらのグループがハザードと認識していることを知らせる。 さらに, 危険事象の発生頻度がピークに達し, このような事象の自動指標として機能することを示す。 最後に、特に都市伝説ではハザードに関する情報が広く行き渡っていることがわかり、これは過去の研究と一致し、ハザードの報告が信じることも伝達される可能性も高いことが判明した。

Socio-linguistic indicators of text, such as emotion or sentiment, are often extracted using neural networks in order to better understand features of social media. One indicator that is often overlooked, however, is the presence of hazards within text. Recent psychological research suggests that statements about hazards are more believable than statements about benefits (a property known as negatively biased credulity), and that political liberals and conservatives differ in how often they share hazards. Here, we develop a new model to detect information concerning hazards, trained on a new collection of annotated X posts, as well as urban legends annotated in previous work. We show that not only does this model perform well (outperforming, e.g., zero-shot human annotator proxies, such as GPT-4) but that the hazard information it extracts is not strongly correlated with other indicators, namely moral outrage, sentiment, emotions, and threat words. (That said, consonant with expectations, hazard information does correlate positively with such emotions as fear, and negatively with emotions like joy.) We then apply this model to three datasets: X posts about COVID-19, X posts about the 2023 Hamas-Israel war, and a new expanded collection of urban legends. From these data, we uncover words associated with hazards unique to each dataset as well as differences in this language between groups of users, such as conservatives and liberals, which informs what these groups perceive as hazards. We further show that information about hazards peaks in frequency after major hazard events, and therefore acts as an automated indicator of such events. Finally, we find that information about hazards is especially prevalent in urban legends, which is consistent with previous work that finds that reports of hazards are more likely to be both believed and transmitted.
翻訳日:2024-05-29 20:16:52 公開日:2024-05-28
# PeerFL: 大規模ピアツーピアフェデレーション学習シミュレータ

PeerFL: A Simulator for Peer-to-Peer Federated Learning at Scale ( http://arxiv.org/abs/2405.17839v1 )

ライセンス: Link先を確認
Alka Luqman, Shivanshu Shekhar, Anupam Chattopadhyay, (参考訳) この研究は、ピアツーピアのフェデレーション学習ツールと広く使われているネットワークシミュレータNS3を統合し、フェデレーション学習における異種デバイス実験を可能にするために設計された新しいシミュレータを作成する。 このクロスプラットフォーム適応性は、既存のシミュレーションツールの重大なギャップに対処し、全体的なユーティリティとユーザエクスペリエンスを向上します。 NS3はWiFiダイナミックスをシミュレートして、トレーニング中に物理的に動き回る参加者とのフェデレーション学習実験を促進することで、動的ネットワーク特性をもたらす。 実験では,計算資源の大規模利用におけるシミュレータの効率を実証し,最大450個の異種デバイスをフェデレート学習の参加者としてモデル化した。 これは、ピアツーピア・フェデレーション・ラーニングにおけるシミュレーションに基づく調査のための貴重なツールとして位置づけられている。 フレームワークはオープンソースで、コミュニティへの使用と拡張が可能である。

This work integrates peer-to-peer federated learning tools with NS3, a widely used network simulator, to create a novel simulator designed to allow heterogeneous device experiments in federated learning. This cross-platform adaptability addresses a critical gap in existing simulation tools, enhancing the overall utility and user experience. NS3 is leveraged to simulate WiFi dynamics to facilitate federated learning experiments with participants that move around physically during training, leading to dynamic network characteristics. Our experiments showcase the simulator's efficiency in computational resource utilization at scale, with a maximum of 450 heterogeneous devices modelled as participants in federated learning. This positions it as a valuable tool for simulation-based investigations in peer-to-peer federated learning. The framework is open source and available for use and extension to the community.
翻訳日:2024-05-29 20:16:52 公開日:2024-05-28
# ベンチマークは多言語対話エージェントの可読性を過小評価する

Benchmark Underestimates the Readiness of Multi-lingual Dialogue Agents ( http://arxiv.org/abs/2405.17840v1 )

ライセンス: Link先を確認
Andrew H. Lee, Sina J. Semnani, Galo Castillo-López, Gäel de Chalendar, Monojit Choudhury, Ashna Dua, Kapil Rajesh Kavitha, Sungkyun Kim, Prashant Kodali, Ponnurangam Kumaraguru, Alexis Lombard, Mehrad Moradshahi, Gihyun Park, Nasredine Semmar, Jiwon Seo, Tianhao Shen, Manish Shrivastava, Deyi Xiong, Monica S. Lam, (参考訳) マルチリンガルタスク指向対話(TOD)エージェントの作成は、データ取得のトレーニングコストが高いため困難である。 トレーニングデータ効率を改善する研究動向に続き,マルチリンガルTODに対処するのにコンテキスト内学習が十分であることを示す。 難易度の高い対話状態追跡(DST)サブタスクを処理するために、少数のサンプルしか使用していないコンテキスト内学習とより互換性のある、より単純なステップに分解する。 我々は、中国語、英語、フランス語、韓国語、ヒンディー語、およびコードミキシングされたヒンディー語に12のドメインを持つ多言語TODデータセットX-RiSAWOZのアプローチを検証した。 6言語でのターン・バイ・ターンDSTの精度は55.6%から80.3%の範囲で、SOTAよりも明らかに悪く、60.7%から82.8%の微調整モデルによる結果である。 しかし, 検証セットを手作業で評価した結果, ゴールドラベルの誤りを訂正し, データセットのアノテーションスキーマを改善することで, 1) 89.6%-96.8%の精度でGPT-4を実現できることがわかった。 これにより、現在の自動メトリクスは、文脈内学習の有効性を非常に過小評価していると結論付ける。

Creating multilingual task-oriented dialogue (TOD) agents is challenging due to the high cost of training data acquisition. Following the research trend of improving training data efficiency, we show for the first time, that in-context learning is sufficient to tackle multilingual TOD. To handle the challenging dialogue state tracking (DST) subtask, we break it down to simpler steps that are more compatible with in-context learning where only a handful of few-shot examples are used. We test our approach on the multilingual TOD dataset X-RiSAWOZ, which has 12 domains in Chinese, English, French, Korean, Hindi, and code-mixed Hindi-English. Our turn-by-turn DST accuracy on the 6 languages range from 55.6% to 80.3%, seemingly worse than the SOTA results from fine-tuned models that achieve from 60.7% to 82.8%; our BLEU scores in the response generation (RG) subtask are also significantly lower than SOTA. However, after manual evaluation of the validation set, we find that by correcting gold label errors and improving dataset annotation schema, GPT-4 with our prompts can achieve (1) 89.6%-96.8% accuracy in DST, and (2) more than 99% correct response generation across different languages. This leads us to conclude that current automatic metrics heavily underestimate the effectiveness of in-context learning.
翻訳日:2024-05-29 20:16:52 公開日:2024-05-28
# ディスクリミネータによる共同音声・ビデオ生成のための協調拡散

Discriminator-Guided Cooperative Diffusion for Joint Audio and Video Generation ( http://arxiv.org/abs/2405.17842v1 )

ライセンス: Link先を確認
Akio Hayakawa, Masato Ishii, Takashi Shibuya, Yuki Mitsufuji, (参考訳) 本研究では,事前学習した単一モード生成モデルを利用して,最小計算コストのオーディオ映像生成モデルを構築することを目的とする。 そこで本研究では,各単一モーダルモデルをガイドして,各モーダルモデルに対して協調的に整合性のあるサンプルを生成する手法を提案する。 具体的には,2つの事前学習ベース拡散モデルが与えられた場合,ベースモデルによって別々に推定されるスコアをオーディオおよびビデオ上での関節分布のスコアに合わせるために,軽量な関節誘導モジュールを訓練する。 理論的には、このガイダンスは、ベースモデルによって独立に生成された偽の音声-ビデオ対を識別する最適な判別器の勾配によって計算可能であることを示す。 この分析に基づいて,この判別器を訓練して共同指導モジュールを構築する。 さらに,判別器の勾配を標準拡散モデルのようにノイズ推定器として機能させ,判別器の勾配を安定化させる損失関数を採用した。 いくつかのベンチマークデータセットに対する実証的な評価により,本手法は比較的少数のパラメータで単一モードの忠実度と複数モードのアライメントを改善していることが示された。

In this study, we aim to construct an audio-video generative model with minimal computational cost by leveraging pre-trained single-modal generative models for audio and video. To achieve this, we propose a novel method that guides each single-modal model to cooperatively generate well-aligned samples across modalities. Specifically, given two pre-trained base diffusion models, we train a lightweight joint guidance module to adjust scores separately estimated by the base models to match the score of joint distribution over audio and video. We theoretically show that this guidance can be computed through the gradient of the optimal discriminator distinguishing real audio-video pairs from fake ones independently generated by the base models. On the basis of this analysis, we construct the joint guidance module by training this discriminator. Additionally, we adopt a loss function to make the gradient of the discriminator work as a noise estimator, as in standard diffusion models, stabilizing the gradient of the discriminator. Empirical evaluations on several benchmark datasets demonstrate that our method improves both single-modal fidelity and multi-modal alignment with a relatively small number of parameters.
翻訳日:2024-05-29 20:16:52 公開日:2024-05-28
# LLMと身体的知識グラフを用いたサービスロボットの安全管理

Safety Control of Service Robots with LLMs and Embodied Knowledge Graphs ( http://arxiv.org/abs/2405.17846v1 )

ライセンス: Link先を確認
Yong Qi, Gabriel Kyebambo, Siyuan Xie, Wei Shen, Shenghui Wang, Bitao Xie, Bin He, Zhipeng Wang, Shuo Jiang, (参考訳) 各種産業におけるサービスロボティクスの安全性の制限は、ロボットが安全な慣行に従うことを保証するロバストなメカニズムの必要性を大いに懸念している。 知識グラフ(KG)とLarge Language Models(LLM)の統合を含む進歩にもかかわらず、自律ロボットアクションにおける一貫した安全性を保証するという課題は継続している。 本稿では,大規模言語モデルとERCP(Embodied Robotic Control Prompts)とEKG(Embodied Knowledge Graphs)を統合することで,サービスロボットの安全性を向上する手法を提案する。 ERCPは、LLMが安全かつ正確な応答を生成するための事前定義された命令として設計されている。 これらの応答はEKGによって検証され、ロボットの動作が安全プロトコルと継続的に一致していることを保証する包括的な知識基盤を提供する。 そこでは,従来の手法に比べて安全性基準の遵守度が有意に高かった。 この統合は、セキュアな人間とロボットのインタラクションを促進し、私たちの方法論を、サービスロボティクスにおけるAI駆動型安全イノベーションの最前線に位置づけます。

Safety limitations in service robotics across various industries have raised significant concerns about the need for robust mechanisms ensuring that robots adhere to safe practices, thereby preventing actions that might harm humans or cause property damage. Despite advances, including the integration of Knowledge Graphs (KGs) with Large Language Models (LLMs), challenges in ensuring consistent safety in autonomous robot actions persist. In this paper, we propose a novel integration of Large Language Models with Embodied Robotic Control Prompts (ERCPs) and Embodied Knowledge Graphs (EKGs) to enhance the safety framework for service robots. ERCPs are designed as predefined instructions that ensure LLMs generate safe and precise responses. These responses are subsequently validated by EKGs, which provide a comprehensive knowledge base ensuring that the actions of the robot are continuously aligned with safety protocols, thereby promoting safer operational practices in varied contexts. Our experimental setup involved diverse real-world tasks, where robots equipped with our framework demonstrated significantly higher compliance with safety standards compared to traditional methods. This integration fosters secure human-robot interactions and positions our methodology at the forefront of AI-driven safety innovations in service robotics.
翻訳日:2024-05-29 20:16:52 公開日:2024-05-28
# I-LLM:完全量子化低ビット大言語モデルのための効率的な整数オンリー推論

I-LLM: Efficient Integer-Only Inference for Fully-Quantized Low-Bit Large Language Models ( http://arxiv.org/abs/2405.17849v1 )

ライセンス: Link先を確認
Xing Hu, Yuan Chen, Dawei Yang, Sifan Zhou, Zhihang Yuan, Jiangyong Yu, Chen Xu, (参考訳) 後学習量子化(PTQ)は、大規模言語モデル(LLM)の推論を加速する強力な手法である。 それでも、既存の作業は、RMSNormやSoftmaxのような非線形演算子と同様に、さらなる量子化や非量子化を含む、推論中にかなりの数の浮動小数点演算を必要とする。 この制限は、エッジとクラウドデバイスへのLSMのデプロイを妨げる。 本稿では,LLMにおける整数のみの量子化の主な障害は,線形演算と非線形演算の両方において,チャネルとトークン間のアクティベーションが大きく変動することにある。 この問題に対処するために,LLMに適した整数のみの完全量子化PTQフレームワークであるI-LLMを提案する。 具体的には,(1)全てのアクティベーションと重みのチャネル間変動を積極的にスムースに行うために,FSBR(Fully-Smooth Block-Reconstruction)を開発した。 2) トキン間変異による劣化を軽減するため, 動的整数のみのMatMul (DI-MatMul) と呼ばれる新しいアプローチを導入する。 この方法は整数のみの演算で入力と出力を動的に量子化することにより、全整数行列乗法における動的量子化を可能にする。 (3) ビットシフトを利用したDI-ClippedSoftmax, DI-Exp, DI-Normalizationを設計し, 精度を維持しつつ, 非線形演算子を効率的に実行する。 実験の結果,我々のI-LLMはFPベースラインに匹敵する精度を達成し,非整数量子化法より優れていた。 例えば、I-LLMはW4A4で動作でき、精度は無視できる。 我々の知る限り、我々は整数のみの量子化と LLM のギャップを埋める最初の人物である。 我々は、この分野の進歩に貢献することを目的として、匿名の.4open.scienceに関するコードを公開しました。

Post-training quantization (PTQ) serves as a potent technique to accelerate the inference of large language models (LLMs). Nonetheless, existing works still necessitate a considerable number of floating-point (FP) operations during inference, including additional quantization and de-quantization, as well as non-linear operators such as RMSNorm and Softmax. This limitation hinders the deployment of LLMs on the edge and cloud devices. In this paper, we identify the primary obstacle to integer-only quantization for LLMs lies in the large fluctuation of activations across channels and tokens in both linear and non-linear operations. To address this issue, we propose I-LLM, a novel integer-only fully-quantized PTQ framework tailored for LLMs. Specifically, (1) we develop Fully-Smooth Block-Reconstruction (FSBR) to aggressively smooth inter-channel variations of all activations and weights. (2) to alleviate degradation caused by inter-token variations, we introduce a novel approach called Dynamic Integer-only MatMul (DI-MatMul). This method enables dynamic quantization in full-integer matrix multiplication by dynamically quantizing the input and outputs with integer-only operations. (3) we design DI-ClippedSoftmax, DI-Exp, and DI-Normalization, which utilize bit shift to execute non-linear operators efficiently while maintaining accuracy. The experiment shows that our I-LLM achieves comparable accuracy to the FP baseline and outperforms non-integer quantization methods. For example, I-LLM can operate at W4A4 with negligible loss of accuracy. To our knowledge, we are the first to bridge the gap between integer-only quantization and LLMs. We've published our code on anonymous.4open.science, aiming to contribute to the advancement of this field.
翻訳日:2024-05-29 20:16:52 公開日:2024-05-28
# Fare Evasionのためのディープニューラルネットワークアプローチ

A Deep Neural Network Approach to Fare Evasion ( http://arxiv.org/abs/2405.17855v1 )

ライセンス: Link先を確認
Johannes van der Vyver, (参考訳) 公共交通機関にとってフェール回避は問題であり、LSTMモデルでは、この問題は企業が資本損失を防ぐために、最も問題が発生する場所について分析的な洞察を得るのに役立つ。 財政的な負担に加えて、この問題が引き起こされるため、検査官が増えるほど問題を緩和するには不十分である。 本研究の目的は公共交通機関における運賃回避の予測方法を探ることである。 映像中の乗客のキーポイント抽出により、LSTMモデルはこれらのキーポイント上で訓練され、支払いと回避の間の乗客の行動を予測する。 結果は、リアルタイムの映像で乗客の行動を予測した時に有望だった。 このように、洗練されたアプローチは、運賃回避の問題を軽減するのに役立つ。 ReIDモデルはLSTMモデルと併用して精度を向上することができる。 両モデルとも、公共交通機関が運賃回避問題の発生源を絞り込むことが可能である。

Fare evasion is a problem for public transport companies, with LSTM models this issue can help companies get an analytical insight into where this issue occurs the most, to prevent capital loss. In addition to the financial burden this problem causes, having more inspectors is not enough to alleviate the problem. The purpose of this study is to find a different way to predict fare evasion in the public transport sector. Through the use of keypoint extractions of passengers in video footage, an LSTM model is trained on those keypoints to help predict the actions of passengers between payments and evasions. The results were promising when it came to predicting the actions of passengers on real-time footage. Thus a sophisticated approach can help to decrease the fare evasion problem. A ReID model can be used alongside the LSTM model for better accuracy, as there is always the chance that a person might only pay for the fare at a later stage. With both models, it is possible for public transport companies to start narrowing down where the root of their fare evasion problems emerges.
翻訳日:2024-05-29 20:07:07 公開日:2024-05-28
# 新規検出・分割のための事前学習型視覚モデルの適用

Adapting Pre-Trained Vision Models for Novel Instance Detection and Segmentation ( http://arxiv.org/abs/2405.17859v1 )

ライセンス: Link先を確認
Yangxiao Lu, Jishnu Jaykumar P, Yunhui Guo, Nicholas Ruozzi, Yu Xiang, (参考訳) New Instance Detection and Segmentation (NIDS)は、各インスタンスのいくつかの例から、新しいオブジェクトインスタンスを検出し、セグメンテーションすることを目的としている。 本稿では、オブジェクトの提案生成、インスタンステンプレートと提案領域の埋め込み生成、インスタンスラベル割り当ての埋め込みマッチングを含む統合フレームワーク(NIDS-Net)を提案する。 近年の大規模ビジョン手法の進歩を生かして,正確なバウンディングボックスとマスクを用いたオブジェクト提案を得るために,grounding DINO と Segment Anything Model (SAM) を利用する。 私たちのアプローチの中心は、高品質なインスタンス埋め込みの生成です。 我々は、DINOv2 ViTバックボーンからのパッチ埋め込みの事前特徴平均を利用し、それに続いて、私たちが導入する重み付けアダプター機構による改善を行った。 重み付けアダプタは,特徴空間内の埋め込みを局所的に調整し,オーバーフィッティングを効果的に制限できることを実験的に示す。 この手法は直接的なマッチング戦略を可能にし、結果として大きなパフォーマンス向上をもたらす。 我々のフレームワークは現在の最先端の手法を超え、4つの検出データセットの平均精度(AP)において22.3、46.2、10.3、24.0の顕著な改善を示している。 例えば、BOPチャレンジの7つのコアデータセットのセグメンテーションタスクでは、我々の手法は3.6 APで上位RGBメソッドより優れており、最高のRGB-Dメソッドと競合し続けている。 コードは、https://github.com/YoungSean/NIDS-Netで入手できる。

Novel Instance Detection and Segmentation (NIDS) aims at detecting and segmenting novel object instances given a few examples of each instance. We propose a unified framework (NIDS-Net) comprising object proposal generation, embedding creation for both instance templates and proposal regions, and embedding matching for instance label assignment. Leveraging recent advancements in large vision methods, we utilize the Grounding DINO and Segment Anything Model (SAM) to obtain object proposals with accurate bounding boxes and masks. Central to our approach is the generation of high-quality instance embeddings. We utilize foreground feature averages of patch embeddings from the DINOv2 ViT backbone, followed by refinement through a weight adapter mechanism that we introduce. We show experimentally that our weight adapter can adjust the embeddings locally within their feature space and effectively limit overfitting. This methodology enables a straightforward matching strategy, resulting in significant performance gains. Our framework surpasses current state-of-the-art methods, demonstrating notable improvements of 22.3, 46.2, 10.3, and 24.0 in average precision (AP) across four detection datasets. In instance segmentation tasks on seven core datasets of the BOP challenge, our method outperforms the top RGB methods by 3.6 AP and remains competitive with the best RGB-D method. Code is available at: https://github.com/YoungSean/NIDS-Net
翻訳日:2024-05-29 20:07:07 公開日:2024-05-28
# 不足データに基づく原子炉設計における材料特性の頑健な予測に向けて -- クリープ破壊特性に関する研究-

Towards robust prediction of material properties for nuclear reactor design under scarce data -- a study in creep rupture property ( http://arxiv.org/abs/2405.17862v1 )

ライセンス: Link先を確認
Yu Chen, Edoardo Patelli, Zhen Yang, Adolphus Lye, (参考訳) ディープ・ラーニングの進歩は、特に原子力産業のような安全クリティカルな工学応用において、信頼性と堅牢性に関するさらなる調査をもたらす。 主な課題は、データセット(しばしば希少でスパース)の可用性と、データ、モデル、予測の不確実性について十分に考慮されていないことである。 そこで本稿では, 原子炉設計における材料特性の信頼性予測を目的とした, 不確実性と事前知識の両面でのメタラーニングに基づくアプローチを提案する。 限られたデータの下での堅牢な学習に適している。 不確実性は、外挿のために予測関数の分布が生成される場所について説明されている。 その結果, 破断寿命予測における既存の経験的手法よりも優れた性能が得られることが示唆された。 ここでは破断特性が実証されているが、この学習アプローチは、原子力業界全体でのデータ不足という同様の問題を解決するために、転送可能である。 信頼できるツールを提供しながら、適用性と堅牢性を証明することによって、原子力産業におけるAI分析を強化することが非常に重要です。

Advances in Deep Learning bring further investigation into credibility and robustness, especially for safety-critical engineering applications such as the nuclear industry. The key challenges include the availability of data set (often scarce and sparse) and insufficient consideration of the uncertainty in the data, model, and prediction. This paper therefore presents a meta-learning based approach that is both uncertainty- and prior knowledge-informed, aiming at trustful predictions of material properties for the nuclear reactor design. It is suited for robust learning under limited data. Uncertainty has been accounted for where a distribution of predictor functions are produced for extrapolation. Results suggest it achieves superior performance than existing empirical methods in rupture life prediction, a case which is typically under a small data regime. While demonstrated herein with rupture properties, this learning approach is transferable to solve similar problems of data scarcity across the nuclear industry. It is of great importance to boosting the AI analytics in the nuclear industry by proving the applicability and robustness while providing tools that can be trusted.
翻訳日:2024-05-29 20:07:07 公開日:2024-05-28
# 画像を見る:コントラストアライメントによる視覚相関の優先順位付け

Seeing the Image: Prioritizing Visual Correlation by Contrastive Alignment ( http://arxiv.org/abs/2405.17871v1 )

ライセンス: Link先を確認
Xin Xiao, Bohong Wu, Jiacong Wang, Chunyuan Li, Xun Zhou, Haoyuan Guo, (参考訳) 視覚言語モデル(VLM)における既存の画像-テキストのモダリティアライメントは、各テキストトークンを自己回帰的に等しく扱う。 単純かつ効果的であるにもかかわらず、入力画像と相関しにくい、あるいは矛盾しないテキストトークンを過度に強調することにより、最適でない相互アライメントを実現する。 本稿では,その視覚的相関に基づいて,各テキストトークンに対して異なるコントリビューションを割り当てることを提唱する。 具体的には、画像入力を対比することにより、各テキストトークン上の予測ロジットの違いが視覚的相関の強いガイダンスを提供する。 コントラストアライメント(Contrastive ALignment, CAL)は、視覚的に相関したトークンのトレーニングを優先する、シンプルで効果的な再重み付け戦略である。 実験の結果、CALは様々なベンチマークデータセットにおいて、様々な解像度とモデルサイズで異なるタイプのVLMを一貫して改善することを示した。 重要な点として,本手法は計算オーバーヘッドを最小限に抑え,代替データスケーリング戦略と比較して高い効率で処理する。 コードはhttps://github.com/foundation-multimodal-models/CALで公開されている。

Existing image-text modality alignment in Vision Language Models (VLMs) treats each text token equally in an autoregressive manner. Despite being simple and effective, this method results in sub-optimal cross-modal alignment by over-emphasizing the text tokens that are less correlated with or even contradictory with the input images. In this paper, we advocate for assigning distinct contributions for each text token based on its visual correlation. Specifically, we present by contrasting image inputs, the difference in prediction logits on each text token provides strong guidance of visual correlation. We therefore introduce Contrastive ALignment (CAL), a simple yet effective re-weighting strategy that prioritizes training visually correlated tokens. Our experimental results demonstrate that CAL consistently improves different types of VLMs across different resolutions and model sizes on various benchmark datasets. Importantly, our method incurs minimal additional computational overhead, rendering it highly efficient compared to alternative data scaling strategies. Codes are available at https://github.com/foundation-multimodal-models/CAL.
翻訳日:2024-05-29 20:07:07 公開日:2024-05-28
# HFGS : 内視鏡的シーン再構成のための空間的および時間的高周波成分に着目した4次元ガウス切削術

HFGS: 4D Gaussian Splatting with Emphasis on Spatial and Temporal High-Frequency Components for Endoscopic Scene Reconstruction ( http://arxiv.org/abs/2405.17872v1 )

ライセンス: Link先を確認
Haoyu Zhao, Xingyue Zhao, Lingting Zhu, Weixi Zheng, Yongchao Xu, (参考訳) ロボット支援による最小侵襲手術は、手術結果を改善するため、動的シーン再構築の強化による恩恵を受ける。 ニューラル・ラジアンス・フィールド(NeRF)はシーン再構成に有効であるが、推論速度は遅く、トレーニング期間も長いため適用性が制限されている。 これらの制限を克服するため、3Dガウススプラッティング(3D-GS)ベースの手法が最近のトレンドとして登場し、高速な推論機能と優れた3D品質を提供する。 しかし、これらの手法は静的シーンと動的シーンの両方において過度な再構成に苦慮している。 本稿では,空間的および時間的周波数の観点からこれらの課題に対処する,変形可能な内視鏡再構成のための新しいアプローチであるHFGSを提案する。 提案手法では,動的シーンの処理に変形場を導入し,空間周波数強調再構成(Spatial High-Frequency Emphasis Reconstruction, SHF)を導入し, レンダリング画像と地上真実との空間周波数スペクトルの差を最小化する。 さらに,時間的高周波強調再建(THF)を導入し,流れの先行を生かし,動き集約的な部分の最適化に焦点をあてることで,ニューラルレンダリングのダイナミックな認識を高める。 広く使われている2つのベンチマークの大規模な実験は、HFGSが優れたレンダリング品質を達成することを示した。 私たちのコードは利用可能です。

Robot-assisted minimally invasive surgery benefits from enhancing dynamic scene reconstruction, as it improves surgical outcomes. While Neural Radiance Fields (NeRF) have been effective in scene reconstruction, their slow inference speeds and lengthy training durations limit their applicability. To overcome these limitations, 3D Gaussian Splatting (3D-GS) based methods have emerged as a recent trend, offering rapid inference capabilities and superior 3D quality. However, these methods still struggle with under-reconstruction in both static and dynamic scenes. In this paper, we propose HFGS, a novel approach for deformable endoscopic reconstruction that addresses these challenges from spatial and temporal frequency perspectives. Our approach incorporates deformation fields to better handle dynamic scenes and introduces Spatial High-Frequency Emphasis Reconstruction (SHF) to minimize discrepancies in spatial frequency spectra between the rendered image and its ground truth. Additionally, we introduce Temporal High-Frequency Emphasis Reconstruction (THF) to enhance dynamic awareness in neural rendering by leveraging flow priors, focusing optimization on motion-intensive parts. Extensive experiments on two widely used benchmarks demonstrate that HFGS achieves superior rendering quality. Our code will be available.
翻訳日:2024-05-29 20:07:07 公開日:2024-05-28
# MixDQ: メトリックデカップリング型混合精度量子化を用いたメモリ効率の良いFew-Stepテキスト-画像拡散モデル

MixDQ: Memory-Efficient Few-Step Text-to-Image Diffusion Models with Metric-Decoupled Mixed Precision Quantization ( http://arxiv.org/abs/2405.17873v1 )

ライセンス: Link先を確認
Tianchen Zhao, Xuefei Ning, Tongcheng Fang, Enshu Liu, Guyue Huang, Zinan Lin, Shengen Yan, Guohao Dai, Yu Wang, (参考訳) 拡散モデルは視覚的生成の質を著しく向上させた。 しかし、その計算とメモリの大幅なコストは、リソースに制約のあるモバイルデバイスやデスクトップGPUでも、その応用に挑戦する。 最近の数ステップの拡散モデルでは、デノナイジングステップを減らして推論時間を短縮する。 しかし、メモリ消費は依然として過大である。 ポストトレーニング量子化(PTQ)は、高ビット幅のFP表現を低ビット整数値(INT4/8)に置き換える。 しかし、数ステップの拡散モデルに適用する場合、既存の量子化法は画質とテキストアライメントの両方を維持する上で困難に直面している。 この問題に対処するために、混合精度量子化フレームワークであるMixDQを提案する。 まず,高感度テキスト埋め込み量子化のための特殊なBOS対応量子化法を設計する。 次に,各層の感度を測定するために,距離分離感度解析を行う。 最後に,ビット幅割り当てを行う整数型プログラミング手法を開発した。 既存の量子化手法はW8A8では不足するが、MixDQは性能を損なわずにW8A8を達成でき、W4A8は視界の劣化を無視できる。 FP16と比較すると,モデルサイズとメモリコストの3~4倍の削減,レイテンシの1.45倍の高速化を実現している。

Diffusion models have achieved significant visual generation quality. However, their significant computational and memory costs pose challenge for their application on resource-constrained mobile devices or even desktop GPUs. Recent few-step diffusion models reduces the inference time by reducing the denoising steps. However, their memory consumptions are still excessive. The Post Training Quantization (PTQ) replaces high bit-width FP representation with low-bit integer values (INT4/8) , which is an effective and efficient technique to reduce the memory cost. However, when applying to few-step diffusion models, existing quantization methods face challenges in preserving both the image quality and text alignment. To address this issue, we propose an mixed-precision quantization framework - MixDQ. Firstly, We design specialized BOS-aware quantization method for highly sensitive text embedding quantization. Then, we conduct metric-decoupled sensitivity analysis to measure the sensitivity of each layer. Finally, we develop an integer-programming-based method to conduct bit-width allocation. While existing quantization methods fall short at W8A8, MixDQ could achieve W8A8 without performance loss, and W4A8 with negligible visual degradation. Compared with FP16, we achieve 3-4x reduction in model size and memory cost, and 1.45x latency speedup.
翻訳日:2024-05-29 20:07:07 公開日:2024-05-28
# NUTS、NARS、および音声

NUTS, NARS, and Speech ( http://arxiv.org/abs/2405.17874v1 )

ライセンス: Link先を確認
D. van der Sluis, (参考訳) 知識と資源の不足を伴いながら環境に適応する情報処理システムの能力について検討するため,音声認識に非公理推論システム(NARS)を活用することを検討する。 本稿では, NUTS: raNdom dimensionality redUction non axiomaTic reasoning few Shot learner for perceptionについて述べる。 NUTSは、ナイーブな次元減少、いくつかの前処理、そして非公理推論(NARS)から構成される。 2つのトレーニング例だけで、NUTSは離散的な単語識別のためのWhisper Tinyモデルと同様に機能する。

To investigate whether "Intelligence is the capacity of an information-processing system to adapt to its environment while operating with insufficient knowledge and resources", we look at utilising the non axiomatic reasoning system (NARS) for speech recognition. This article presents NUTS: raNdom dimensionality redUction non axiomaTic reasoning few Shot learner for perception. NUTS consists of naive dimensionality reduction, some pre-processing, and then non axiomatic reasoning (NARS). With only 2 training examples NUTS performs similarly to the Whisper Tiny model for discrete word identification.
翻訳日:2024-05-29 20:07:07 公開日:2024-05-28
# BO4IO:不確実な定量化を伴う逆最適化のためのベイズ最適化手法

BO4IO: A Bayesian optimization approach to inverse optimization with uncertainty quantification ( http://arxiv.org/abs/2405.17875v1 )

ライセンス: Link先を確認
Yen-An Lu, Wei-Shou Hu, Joel A. Paulson, Qi Zhang, (参考訳) この研究はデータ駆動逆最適化(IO: data-driven inverse optimization)に対処し、最適化モデルにおける未知のパラメータを最適化問題の最適解あるいは準最適解と仮定できる観測結果から推定することを目的としている。 IO問題は通常、解決が困難な大規模な二段階プログラムとして定式化されている。 従来の厳密な解法から逸脱し,ベイズ最適化に基づく微分自由最適化手法を提案し,BO4IOとよばれる一般IO問題の解法を提案する。 我々は、IO損失関数をブラックボックスとして扱い、ガウス過程モデルで近似する。 予測された後続関数を用いて、獲得関数を各イテレーションで最小化し、新しい候補解を求め、最適なパラメータ推定に逐次収束する。 IOにベイズ最適化を使用する主な利点は次の2つである。 (i)双レベルプログラムや特殊アルゴリズムの複雑な再構成の必要性を回避し、基礎となる最適化問題が非凸であったり、離散変数を伴っていたりしても計算的トラクタビリティを実現することができる。 (II) プロファイル可能性の近似を可能にし、IOパラメータ推定の不確実な定量化を提供する。 提案手法を3種類の計算ケーススタディに適用し, 凸非線形から非凸混合整数非線形プログラムまで, 前方最適化問題のクラスを網羅する。 本研究はBO4IOの有効性とロバスト性を示し,未知のモデルパラメータを小・雑音のデータセットから正確に推定する。 さらに,提案手法は,パラメータ推定値に対する信頼区間の良好な近似と未知パラメータの識別性の評価に有効であることが確認された。

This work addresses data-driven inverse optimization (IO), where the goal is to estimate unknown parameters in an optimization model from observed decisions that can be assumed to be optimal or near-optimal solutions to the optimization problem. The IO problem is commonly formulated as a large-scale bilevel program that is notoriously difficult to solve. Deviating from traditional exact solution methods, we propose a derivative-free optimization approach based on Bayesian optimization, which we call BO4IO, to solve general IO problems. We treat the IO loss function as a black box and approximate it with a Gaussian process model. Using the predicted posterior function, an acquisition function is minimized at each iteration to query new candidate solutions and sequentially converge to the optimal parameter estimates. The main advantages of using Bayesian optimization for IO are two-fold: (i) it circumvents the need of complex reformulations of the bilevel program or specialized algorithms and can hence enable computational tractability even when the underlying optimization problem is nonconvex or involves discrete variables, and (ii) it allows approximations of the profile likelihood, which provide uncertainty quantification on the IO parameter estimates. We apply the proposed method to three computational case studies, covering different classes of forward optimization problems ranging from convex nonlinear to nonconvex mixed-integer nonlinear programs. Our extensive computational results demonstrate the efficacy and robustness of BO4IO to accurately estimate unknown model parameters from small and noisy datasets. In addition, the proposed profile likelihood analysis has proven to be effective in providing good approximations of the confidence intervals on the parameter estimates and assessing the identifiability of the unknown parameters.
翻訳日:2024-05-29 20:07:07 公開日:2024-05-28
# 個人化フェデレーション学習のための分散型ダイレクトコラボレーション

Decentralized Directed Collaboration for Personalized Federated Learning ( http://arxiv.org/abs/2405.17876v1 )

ライセンス: Link先を確認
Yingqi Liu, Yifan Shi, Qinglun Li, Baoyuan Wu, Xueqian Wang, Li Shen, (参考訳) パーソナライズド・フェデレート・ラーニング(PFL)は、各クライアントに最適なパーソナライズされたモデルを見つけるために提案されている。 サーバベースFLの中央的障害と通信ボトルネックを回避するため,P2P方式で分散モデルトレーニングを行う分散個人化フェデレーションラーニング(DPFL)に焦点を当てた。 DPFLのパーソナライズされた作品の多くは、非指向的および対称的なトポロジに基づくものであるが、データ、計算、通信資源の不均一性はパーソナライズされたモデルに大きなばらつきをもたらし、非指向的なアグリゲーションを最適でないパーソナライズされたパフォーマンスと非保証的な収束へと導く。 これらの問題に対処するために、確率勾配プッシュとパーソナライズされた部分モデルを組み込んだDPFLフレームワークを提案し、それを分散化した \textbf{Fed}erated \textbf{P}artial \textbf{G}radient \textbf{P}ush (\textbf{DFedPGP}) と呼ぶ。 局所解をカスタマイズするために、現代のディープモデルにおける線形分類器をパーソナライズし、完全に分散された方法でコンセンサス表現を学ぶ。 クライアントは、リソース効率とより良い収束のための柔軟な選択を保証する有向トポロジと非対称なトポロジに基づいて、隣人のサブセットとグラデーションを共有するのみである。 理論的には、提案したDFedPGPは一般的な非凸設定において$\mathcal{O}(\frac{1}{\sqrt{T}})$の優れた収束率を達成し、クライアント間の密接な接続が収束を加速することを示す。 提案手法は,データと計算の不均一性の両方のシナリオにおいて,最先端(SOTA)の精度を達成し,協調作業の効率化と部分的な勾配プッシュを実証する。

Personalized Federated Learning (PFL) is proposed to find the greatest personalized models for each client. To avoid the central failure and communication bottleneck in the server-based FL, we concentrate on the Decentralized Personalized Federated Learning (DPFL) that performs distributed model training in a Peer-to-Peer (P2P) manner. Most personalized works in DPFL are based on undirected and symmetric topologies, however, the data, computation and communication resources heterogeneity result in large variances in the personalized models, which lead the undirected aggregation to suboptimal personalized performance and unguaranteed convergence. To address these issues, we propose a directed collaboration DPFL framework by incorporating stochastic gradient push and partial model personalized, called \textbf{D}ecentralized \textbf{Fed}erated \textbf{P}artial \textbf{G}radient \textbf{P}ush (\textbf{DFedPGP}). It personalizes the linear classifier in the modern deep model to customize the local solution and learns a consensus representation in a fully decentralized manner. Clients only share gradients with a subset of neighbors based on the directed and asymmetric topologies, which guarantees flexible choices for resource efficiency and better convergence. Theoretically, we show that the proposed DFedPGP achieves a superior convergence rate of $\mathcal{O}(\frac{1}{\sqrt{T}})$ in the general non-convex setting, and prove the tighter connectivity among clients will speed up the convergence. The proposed method achieves state-of-the-art (SOTA) accuracy in both data and computation heterogeneity scenarios, demonstrating the efficiency of the directed collaboration and partial gradient push.
翻訳日:2024-05-29 20:07:07 公開日:2024-05-28
# 空間性・ハイブリッド性に誘発される視覚パラメーター-医用診断のための効率的な微調整

Sparsity- and Hybridity-Inspired Visual Parameter-Efficient Fine-Tuning for Medical Diagnosis ( http://arxiv.org/abs/2405.17877v1 )

ライセンス: Link先を確認
Mingyuan Liu, Lu Xu, Shengnan Liu, Jicong Zhang, (参考訳) 大規模ビジョンモデル(LVM)の成功には、医療診断において極めて高価な膨大なデータ量が伴う。これに対応するため、近年の取り組みでは、少量の重量を凍結しながら少量の重量を訓練するパラメータ・エフェクト・ファインタニング(PEFT)を活用している。しかし、彼らは通常、タスクの違いにかかわらず、LVMの同じ位置にトレーニング可能な重量をヒューリスティックな方法で割り当て、医療診断のような専門的応用に最適なものにしている。これに対応するために、診断対象ファインタニングにおけるスパーシティとハイブリシティの性質を統計的に明らかにしている。すなわち、これらの重要な重量のごく一部がパフォーマンスに大きく影響し、これらの重要な重量は、タスク特化とタスク診断の両方を含むハイブリッドである。 課題特化戦略とタスク非依存戦略を混在させることによって,その重要性に基づいて,少量の重みを選択・訓練し,その精度でLVMを医療診断に移行する上で,SH-PEFTが最先端のパフォーマンスを達成できることを実証した。 約0.01%の重量を調整することにより、フルモデルファインチューニングよりも優れており、また、SH-PEFTは特定の医療タスクに意図的に最適化された他のモデルと同等の性能を発揮する。

The success of Large Vision Models (LVMs) is accompanied by vast data volumes, which are prohibitively expensive in medical diagnosis.To address this, recent efforts exploit Parameter-Efficient Fine-Tuning (PEFT), which trains a small number of weights while freezing the rest.However, they typically assign trainable weights to the same positions in LVMs in a heuristic manner, regardless of task differences, making them suboptimal for professional applications like medical diagnosis.To address this, we statistically reveal the nature of sparsity and hybridity during diagnostic-targeted fine-tuning, i.e., a small portion of key weights significantly impacts performance, and these key weights are hybrid, including both task-specific and task-agnostic parts.Based on this, we propose a novel Sparsity- and Hybridity-inspired Parameter Efficient Fine-Tuning (SH-PEFT).It selects and trains a small portion of weights based on their importance, which is innovatively estimated by hybridizing both task-specific and task-agnostic strategies.Validated on six medical datasets of different modalities, we demonstrate that SH-PEFT achieves state-of-the-art performance in transferring LVMs to medical diagnosis in terms of accuracy. By tuning around 0.01% number of weights, it outperforms full model fine-tuning.Moreover, SH-PEFT also achieves comparable performance to other models deliberately optimized for specific medical tasks.Extensive experiments demonstrate the effectiveness of each design and reveal that large model transfer holds great potential in medical diagnosis.
翻訳日:2024-05-29 20:07:07 公開日:2024-05-28
# 未学習モデル評価のための情報理論メトリクス

An Information Theoretic Metric for Evaluating Unlearning Models ( http://arxiv.org/abs/2405.17878v1 )

ライセンス: Link先を確認
Dongjae Jeon, Wonje Jeung, Taeheon Kim, Albert No, Jonghyun Choi, (参考訳) マシンラーニング(MU)は、トレーニングされたモデルから‘forgetting data’サンプルの情報を削除することで、プライバシの問題に対処する。 通常、MU手法の評価には、メンバーシップ推論アタック(MIA)や精度測定などのメトリクスを使用して、データを忘れることなく、スクラッチからトレーニングされたモデルと比較することが含まれる。 これらの評価は、未学習モデルと再学習モデルの出力ロジットが類似している場合、未学習モデルがデータを忘れることに成功したことを暗黙的に仮定する。 ここでは、この仮定が妥当かどうかを問う。 特に,新しいマスク蒸留技術を用いて,元のモデルの最後の層のみを補修し,残りを固定する簡単な実験を行った。 驚くべきことに、最後のレイヤを変更するだけでは、既存の評価指標で良好な結果が得られます。 MU手法をよりよく評価するために,情報差分指数(IDI)と呼ばれる情報を用いて,中間特徴量におけるデータサンプルを忘れる際の残留情報を定量化する指標を提案する。 IDIは、DNNの内部構造を効率的に解析することにより、MU手法の包括的な評価を提供する。 私たちのメトリクスは大規模データセットにスケーラブルで、さまざまなモデルアーキテクチャに適用可能です。 さらに,COLapse-and-Align (COLA) という,中間特徴を効果的に解き放つシンプルなコントラストベースの手法を提案する。

Machine unlearning (MU) addresses privacy concerns by removing information of `forgetting data' samples from trained models. Typically, evaluating MU methods involves comparing unlearned models to those retrained from scratch without forgetting data, using metrics such as membership inference attacks (MIA) and accuracy measurements. These evaluations implicitly assume that if the output logits of the unlearned and retrained models are similar, the unlearned model has successfully forgotten the data. Here, we challenge if this assumption is valid. In particular, we conduct a simple experiment of training only the last layer of a given original model using a novel masked-distillation technique while keeping the rest fixed. Surprisingly, simply altering the last layer yields favorable outcomes in the existing evaluation metrics, while the model does not successfully unlearn the samples or classes. For better evaluating the MU methods, we propose a metric that quantifies the residual information about forgetting data samples in intermediate features using mutual information, called information difference index or IDI for short. The IDI provides a comprehensive evaluation of MU methods by efficiently analyzing the internal structure of DNNs. Our metric is scalable to large datasets and adaptable to various model architectures. Additionally, we present COLapse-and-Align (COLA), a simple contrastive-based method that effectively unlearns intermediate features.
翻訳日:2024-05-29 20:07:07 公開日:2024-05-28
# 軌道アグリゲーション木を用いた拡散プランナーの確率的リスクの残留

Resisting Stochastic Risks in Diffusion Planners with the Trajectory Aggregation Tree ( http://arxiv.org/abs/2405.17879v1 )

ライセンス: Link先を確認
Lang Feng, Pengjie Gu, Bo An, Gang Pan, (参考訳) 拡散プランナーは、非自己回帰的な計画生成により、長時間の水平およびスパースリワードタスクを扱うことを約束している。 しかし、実現不可能な軌道を発生させる確率論的リスクは、その信頼性と安定性に重大な課題をもたらす。 拡散プランナにおけるこの問題に対処するための新しい手法として, トラジェクティブ・アグリゲーション・ツリー (TAT) を導入する。 生の軌跡予測のみに依存する従来の手法と比較して、TATは歴史的および現在の軌跡からの情報を集約し、動的木のような構造を形成する。 各軌道は分岐として概念化され、個々の状態はノードとして扱われる。 構造が新しい軌道の統合によって進化するにつれて、信頼できない状態は辺境化され、最も影響のあるノードは意思決定のために優先順位付けされる。 TATは、拡散プランナーの元々のトレーニングやサンプリングパイプラインを変更することなく、デプロイできる。 我々は,TATの有効性を裏付ける理論的解析と実証的証拠の両方を提供する。 本研究は,信頼性の低いトラジェクトリのリスクに対処し,100ドル%のタスクで拡散プランナの性能向上を保証し,試料品質に対する許容許容限界を示し,3ドル以上で計画できることを示す。

Diffusion planners have shown promise in handling long-horizon and sparse-reward tasks due to the non-autoregressive plan generation. However, their inherent stochastic risk of generating infeasible trajectories presents significant challenges to their reliability and stability. We introduce a novel approach, the Trajectory Aggregation Tree (TAT), to address this issue in diffusion planners. Compared to prior methods that rely solely on raw trajectory predictions, TAT aggregates information from both historical and current trajectories, forming a dynamic tree-like structure. Each trajectory is conceptualized as a branch and individual states as nodes. As the structure evolves with the integration of new trajectories, unreliable states are marginalized, and the most impactful nodes are prioritized for decision-making. TAT can be deployed without modifying the original training and sampling pipelines of diffusion planners, making it a training-free, ready-to-deploy solution. We provide both theoretical analysis and empirical evidence to support TAT's effectiveness. Our results highlight its remarkable ability to resist the risk from unreliable trajectories, guarantee the performance boosting of diffusion planners in $100\%$ of tasks, and exhibit an appreciable tolerance margin for sample quality, thereby enabling planning with a more than $3\times$ acceleration.
翻訳日:2024-05-29 20:07:07 公開日:2024-05-28
# 拡散リジェクションサンプリング

Diffusion Rejection Sampling ( http://arxiv.org/abs/2405.17880v1 )

ライセンス: Link先を確認
Byeonghu Na, Yeongmin Kim, Minsang Park, Donghyeok Shin, Wanmo Kang, Il-Chul Moon, (参考訳) 強力な事前学習拡散モデルの最近の進歩は、十分に訓練された拡散モデルの下でサンプリング性能を改善する方法の開発を促進する。 本稿では,DiffRS (Diffusion Rejection Sampling) を導入し,各タイミングでサンプリングトランジションカーネルを真のカーネルに整列させるリジェクションサンプリング方式を提案する。 提案手法は, 各中間段階における試料の品質を評価し, 試料に応じて異なる作業で精製する機構とみなすことができる。 理論的解析により、DiffRSは事前訓練されたモデルと比較してサンプリング誤差に厳密な境界を達成できることが示されている。 実験により,ベンチマークデータセット上でのDiffRSの最先端性能と高速拡散サンプリングおよび大規模テキスト・画像拡散モデルに対するDiffRSの有効性を実証した。 私たちのコードはhttps://github.com/aailabkaist/DiffRS.comで公開されています。

Recent advances in powerful pre-trained diffusion models encourage the development of methods to improve the sampling performance under well-trained diffusion models. This paper introduces Diffusion Rejection Sampling (DiffRS), which uses a rejection sampling scheme that aligns the sampling transition kernels with the true ones at each timestep. The proposed method can be viewed as a mechanism that evaluates the quality of samples at each intermediate timestep and refines them with varying effort depending on the sample. Theoretical analysis shows that DiffRS can achieve a tighter bound on sampling error compared to pre-trained models. Empirical results demonstrate the state-of-the-art performance of DiffRS on the benchmark datasets and the effectiveness of DiffRS for fast diffusion samplers and large-scale text-to-image diffusion models. Our code is available at https://github.com/aailabkaist/DiffRS.
翻訳日:2024-05-29 20:07:07 公開日:2024-05-28
# Crystal-LSBO:潜時空間ベイズ最適化によるデノボ結晶の自動設計

Crystal-LSBO: Automated Design of De Novo Crystals with Latent Space Bayesian Optimization ( http://arxiv.org/abs/2405.17881v1 )

ライセンス: Link先を確認
Onur Boyar, Yanheng Gu, Yuji Tanaka, Shunsuke Tonogai, Tomoya Itakura, Ichiro Takeuchi, (参考訳) 結晶構造の生成的モデリングは、これらのモデルが新しい結晶を探索し発見する能力を制限する入力データの複雑さによって著しく困難である。 この複雑さはしばしば、デ・ノボの設計手法を既知の結晶の小さな摂動に限定し、高度な最適化手法の効果的な適用を妨げている。 そのような最適化手法の1つとして、ラテント・スペース・ベイズ最適化(LSBO)は、特に変分オートエンコーダ(VAE)と組み合わせることで、様々な領域にまたがる新しいオブジェクトを発見できる有望な結果を証明している。 LSBOの可能性と革新的結晶発見への重要なニーズを認識し、LSBOフレームワーク内の探索性を高めるために特別に調整された結晶のデノボ設計フレームワークであるCrystal-LSBOを紹介した。 結晶-LSBOは複数のVAEを用いており、それぞれが格子、座標、化学元素といった結晶構造の異なる側面に特化しており、これらの成分を結合的な出力に合成する積分モデルによって構成されている。 このセットアップは、学習プロセスの合理化だけでなく、各モデルの学習タスクの複雑さの低下により探索可能な潜在空間も生成し、LSBOアプローチの運用を可能にする。 本研究は,ド・ノボ結晶設計におけるLSBOの利用の先駆者であり,生成エネルギー値を中心にした最適化タスクによる有効性を示すものである。 本研究は, ド・ノボ結晶発見の新たな視点として, 提案手法の有効性を強調した。

Generative modeling of crystal structures is significantly challenged by the complexity of input data, which constrains the ability of these models to explore and discover novel crystals. This complexity often confines de novo design methodologies to merely small perturbations of known crystals and hampers the effective application of advanced optimization techniques. One such optimization technique, Latent Space Bayesian Optimization (LSBO) has demonstrated promising results in uncovering novel objects across various domains, especially when combined with Variational Autoencoders (VAEs). Recognizing LSBO's potential and the critical need for innovative crystal discovery, we introduce Crystal-LSBO, a de novo design framework for crystals specifically tailored to enhance explorability within LSBO frameworks. Crystal-LSBO employs multiple VAEs, each dedicated to a distinct aspect of crystal structure: lattice, coordinates, and chemical elements, orchestrated by an integrative model that synthesizes these components into a cohesive output. This setup not only streamlines the learning process but also produces explorable latent spaces thanks to the decreased complexity of the learning task for each model, enabling LSBO approaches to operate. Our study pioneers the use of LSBO for de novo crystal design, demonstrating its efficacy through optimization tasks focused mainly on formation energy values. Our results highlight the effectiveness of our methodology, offering a new perspective for de novo crystal discovery.
翻訳日:2024-05-29 20:07:07 公開日:2024-05-28
# 平均逆レスベルトバンドにおける指数的漸近最適性はいつ達成できるか?

When is exponential asymptotic optimality achievable in average-reward restless bandits? ( http://arxiv.org/abs/2405.17882v1 )

ライセンス: Link先を確認
Yige Hong, Qiaomin Xie, Yudong Chen, Weina Wang, (参考訳) 離散時間無限水平平均逆レスバンドイット問題を考える。 1つのアームのサブセットは、ほぼ最適な状態分布を持ち、最適局所制御ルーチンに従ってアクションを取る;もう1つのアームのサブセットは、最適な状態分布に向けて駆動され、徐々に第1サブセットにマージされる。 我々は, 周期的ユニチェーン, 非縮退性, 局所安定性の軽度な仮定の下で, $O(\exp(-C N))$$ N$武器問題に対する最適性ギャップが漸近的に最適であることを示す。 我々の政策は、上記の一組の検証が容易な仮定の下で指数的漸近的最適性を達成する最初のものであるが、事前の作業は強いグローバル・アトラクタの仮定を必要とするか、あるいは$O(1/\sqrt{N})$の最適性ギャップしか達成しない。 さらに、仮定を著しく弱めるための基本的な障害についても論じる。 特に、局所的な安定性が指数的漸近的最適性の基本であることを証明している。

We consider the discrete-time infinite-horizon average-reward restless bandit problem. We propose a novel policy that maintains two dynamic subsets of arms: one subset of arms has a nearly optimal state distribution and takes actions according to an Optimal Local Control routine; the other subset of arms is driven towards the optimal state distribution and gradually merged into the first subset. We show that our policy is asymptotically optimal with an $O(\exp(-C N))$ optimality gap for an $N$-armed problem, under the mild assumptions of aperiodic-unichain, non-degeneracy, and local stability. Our policy is the first to achieve exponential asymptotic optimality under the above set of easy-to-verify assumptions, whereas prior work either requires a strong Global Attractor assumption or only achieves an $O(1/\sqrt{N})$ optimality gap. We further discuss the fundamental obstacles in significantly weakening our assumptions. In particular, we prove a lower bound showing that local stability is fundamental for exponential asymptotic optimality.
翻訳日:2024-05-29 20:07:07 公開日:2024-05-28
# グラフモタと手書き障害評価尺度(GHDRS: Graphomotor and Handwriting Disabilities Rating Scale) : 複雑で客観的な評価

Graphomotor and Handwriting Disabilities Rating Scale (GHDRS):towards complex and objective assessment ( http://arxiv.org/abs/2405.17886v1 )

ライセンス: Link先を確認
Jiri Mekyska, Katarina Safarova, Tomas Urbanek, Jirina Bednarova, Vojtech Zvoncak, Jana Marie Havigerova, Lukas Cunek, Zoltan Galaz, Jan Mucha, Christine Klauszova, Marcos Faundez-Zanuy, Miguel A. Ferrer, Moises Diaz, (参考訳) グラフモタと手書き障害(それぞれGDとHD)は、子供の生活の質を著しく低下させる可能性がある。 効果的な治療は適切な診断に依存するが、GDとHDの診断と評価への現在のアプローチにはいくつかの限界と知識ギャップがある。 本研究の目的は,GHDRS Graphomotor and Handwriting Disabilities Rating Scale (GHDRS Graphomotor and Handwriting Disabilities Rating Scale) を導入することである。 この尺度は、描画/手書きのプロセス/製品に関連する17のマニフェストの定量化をサポートする。 GHDRS設計の方法論の全体は、他の言語に適応できるように、極大に透明にされている。

Graphomotor and handwriting disabilities (GD and HD, respectively) could significantly reduce children's quality of life. Effective remediation depends on proper diagnosis; however, current approaches to diagnosis and assessment of GD and HD have several limitations and knowledge gaps, e.g. they are subjective, they do not facilitate identification of specific manifestations, etc. The aim of this work is to introduce a new scale (GHDRS Graphomotor and Handwriting Disabilities Rating Scale) that will enable experts to perform objective and complex computeraided diagnosis and assessment of GD and HD. The scale supports quantification of 17 manifestations associated with the process/product of drawing/ handwriting. The whole methodology of GHDRS design is made maximally transparent so that it could be adapted for other languages.
翻訳日:2024-05-29 19:57:23 公開日:2024-05-28
# LLMアライメントのためのSFTの改善

Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment ( http://arxiv.org/abs/2405.17888v1 )

ライセンス: Link先を確認
Jiaxiang Li, Siliang Zeng, Hoi-To Wai, Chenliang Li, Alfredo Garcia, Mingyi Hong, (参考訳) 人間の好みと価値を調整することは、現代の基礎モデルにとって重要な要件である。 Reinforcement Learning from Human Feedback (RLHF)のような最先端技術は、しばしば2つの段階から構成される。 1) 教師付き微調整(SFT)では,人間の実演データから学習することでモデルを微調整する。 2)優先学習では,優先データを用いて報酬モデルを学習し,それを強化学習(RL)ステップで微調整する。 このような報酬モデルが人間の好みの代案となり、RLのステップをモデルの品質向上に導くことが重要です。 本研究では、SFTのステージは報酬モデルを学ぶことのメリットも大きいと論じる。 人による実証データを教師付き学習で直接利用する代わりに、逆強化学習(IRL)技術を用いて報酬モデルを構築し、政策モデルを学習することを提案する。 このアプローチは、実装が効率的であるだけでなく、好ましい継続と非推奨継続を区別する能力を促進する新しいSFTアルゴリズムをもたらす。 さらに,提案したIRLアプローチと,最近提案されたある種の自己プレイアプローチの関連性を同定し,自己プレイが報酬学習エージェントをモデル化する特別な事例であることを示した。 理論的には,提案アルゴリズムはIRL問題の定常解に収束することを示す。 実験的に,提案手法を用いて1Bと7Bのモデルを調整し,報奨ベンチマークモデルとHuggingFace Open LLM Leaderboardを用いて評価する。 提案手法は既存のSFT手法よりも優れた性能を示す。 その結果、アライメントプロセス全体を通して報酬学習を明示的にあるいは暗黙的に活用することは有益であることが示唆された。

Aligning human preference and value is an important requirement for contemporary foundation models. State-of-the-art techniques such as Reinforcement Learning from Human Feedback (RLHF) often consist of two stages: 1) supervised fine-tuning (SFT), where the model is fine-tuned by learning from human demonstration data; 2) Preference learning, where preference data is used to learn a reward model, which is in turn used by a reinforcement learning (RL) step to fine-tune the model. Such reward model serves as a proxy to human preference, and it is critical to guide the RL step towards improving the model quality. In this work, we argue that the SFT stage significantly benefits from learning a reward model as well. Instead of using the human demonstration data directly via supervised learning, we propose to leverage an Inverse Reinforcement Learning (IRL) technique to (explicitly or implicitly) build an reward model, while learning the policy model. This approach leads to new SFT algorithms that are not only efficient to implement, but also promote the ability to distinguish between the preferred and non-preferred continuations. Moreover, we identify a connection between the proposed IRL based approach, and certain self-play approach proposed recently, and showed that self-play is a special case of modeling a reward-learning agent. Theoretically, we show that the proposed algorithms converge to the stationary solutions of the IRL problem. Empirically, we align 1B and 7B models using proposed methods and evaluate them on a reward benchmark model and the HuggingFace Open LLM Leaderboard. The proposed methods show significant performance improvement over existing SFT approaches. Our results indicate that it is beneficial to explicitly or implicitly leverage reward learning throughout the entire alignment process.
翻訳日:2024-05-29 19:57:23 公開日:2024-05-28
# 構造的優先度生成による離散拡散モデルの改善

Improving Discrete Diffusion Models via Structured Preferential Generation ( http://arxiv.org/abs/2405.17889v1 )

ライセンス: Link先を確認
Severi Rissanen, Markus Heinonen, Arno Solin, (参考訳) 画像と音声の領域では、拡散モデルは印象的な性能を示している。 しかしながら、言語などの離散データ型へのそれらの適用は、自己回帰生成モデルと比較すると、しばしば準最適である。 本稿では,テキスト中の単語などの個別のカテゴリにおける固有情報階層を活用する構造的前方処理を導入することで,離散拡散モデルの改善に挑戦する。 提案手法は, 生成過程に偏り, 先行するカテゴリを生成させ, 結果としてtext8データセット上でのログライクなスコアが顕著に向上する。 この研究は、離散拡散モデルにおけるさらなる進歩の道を開くもので、性能が大幅に向上する可能性がある。

In the domains of image and audio, diffusion models have shown impressive performance. However, their application to discrete data types, such as language, has often been suboptimal compared to autoregressive generative models. This paper tackles the challenge of improving discrete diffusion models by introducing a structured forward process that leverages the inherent information hierarchy in discrete categories, such as words in text. Our approach biases the generative process to produce certain categories before others, resulting in a notable improvement in log-likelihood scores on the text8 dataset. This work paves the way for more advances in discrete diffusion models with potentially significant enhancements in performance.
翻訳日:2024-05-29 19:57:23 公開日:2024-05-28
# SLMRec: シークエンシャルレコメンデーションのための小さな言語モデル

SLMRec: Empowering Small Language Models for Sequential Recommendation ( http://arxiv.org/abs/2405.17890v1 )

ライセンス: Link先を確認
Wujiang Xu, Zujie Liang, Jiaojiao Han, Xuying Ning, Wenfang Lin, Linxun Chen, Feng Wei, Yongfeng Zhang, (参考訳) シーケンシャルレコメンデーション(SR)タスクは、過去のインタラクションを考慮して、ユーザが対話する可能性のある次の項目を予測することを含む。 SRモデルは、ユーザの行動のシーケンスを調べ、より複雑な行動パターンと時間的ダイナミクスを識別する。 近年の研究では、LLMが言語モデリングとして逐次レコメンデーションを見るか、ユーザ表現のバックボーンとして機能するかといった、シーケンシャルレコメンデーションシステムに大きく影響していることが示されている。 これらの手法は優れた性能をもたらすが、特にシーケンシャルなレコメンデーションシーンにおいて、大きな言語モデルの必要性と、言語モデルがどれほどの規模で必要とされるかの証拠は乏しい。 一方、LLMの巨大なサイズのため、毎日何十億ものトラフィックログを処理する必要がある実世界のプラットフォームにLLMベースのモデルを適用するのは非効率で非現実的です。 本稿では,LLMが大規模産業データセットに対して広範な実験を行うことで,LLMの深度に与える影響について検討する。 驚いたことに、LLMのほとんどの中間層は冗長であることがわかった。 この知見に触発され、簡単な知識蒸留法を採用するSR(SLMRec)の小さな言語モデルに力を与える。 さらに、SLMRecは量子化やプルーニングといった他の訓練後の効率技術と直交しており、それらを組み合わせて利用することができる。 総合的な実験結果から,提案したSLMRecモデルは,LLMに基づく推薦モデルで見られるパラメータの13%のみを用いて,最大6.6倍,最大8.0倍の高速化を同時に達成し,最高の性能が得られることが示された。

The sequential Recommendation (SR) task involves predicting the next item a user is likely to interact with, given their past interactions. The SR models examine the sequence of a user's actions to discern more complex behavioral patterns and temporal dynamics. Recent research demonstrates the great impact of LLMs on sequential recommendation systems, either viewing sequential recommendation as language modeling or serving as the backbone for user representation. Although these methods deliver outstanding performance, there is scant evidence of the necessity of a large language model and how large the language model is needed, especially in the sequential recommendation scene. Meanwhile, due to the huge size of LLMs, it is inefficient and impractical to apply a LLM-based model in real-world platforms that often need to process billions of traffic logs daily. In this paper, we explore the influence of LLMs' depth by conducting extensive experiments on large-scale industry datasets. Surprisingly, we discover that most intermediate layers of LLMs are redundant. Motivated by this insight, we empower small language models for SR, namely SLMRec, which adopt a simple yet effective knowledge distillation method. Moreover, SLMRec is orthogonal to other post-training efficiency techniques, such as quantization and pruning, so that they can be leveraged in combination. Comprehensive experimental results illustrate that the proposed SLMRec model attains the best performance using only 13% of the parameters found in LLM-based recommendation models, while simultaneously achieving up to 6.6x and 8.0x speedups in training and inference time costs, respectively.
翻訳日:2024-05-29 19:57:23 公開日:2024-05-28
# 高品位ダイナミックシーン再構築のための3次元ガウス表現法

A Refined 3D Gaussian Representation for High-Quality Dynamic Scene Reconstruction ( http://arxiv.org/abs/2405.17891v1 )

ライセンス: Link先を確認
Bin Zhang, Bi Zeng, Zexin Peng, (参考訳) 近年,Neural Radiance Fields (NeRF) は3次元の3次元再構成に革命をもたらした。 NeRF上に構築された3D Gaussian Splatting (3D-GS)は、ニューラルネットワークの暗黙の表現から脱却し、代わりにガウス型の分布を持つ点雲としてシーンを直接表現している。 このシフトにより、ラディアンスフィールドのレンダリング品質と速度が著しく向上したが、必然的にメモリ使用量が大幅に増加した。 さらに、3D-GSで動的シーンを効果的にレンダリングすることは、プレスの課題として現れている。 これらの問題に対処するため,本稿では,高品質な動的シーン再構成のための3次元ガウス表現を提案する。 まず,変形可能な多層パーセプトロン(MLP)ネットワークを用いてガウス点の動的オフセットを捕捉し,ハッシュ符号化による点の色特徴を表現する。 その後,学習可能なデノナイジングマスクとデノナイジングマスクを導入し,シーンからノイズポイントを除去し,さらに3次元ガウスモデルを圧縮する。 最後に、点の運動ノイズは、静的な制約と運動の整合性制約によって緩和される。 実験の結果,本手法は3D-GSに関連するメモリ使用量を大幅に削減し,新規なビュー合成や動的マッピングといった様々なタスクに非常に適していることがわかった。

In recent years, Neural Radiance Fields (NeRF) has revolutionized three-dimensional (3D) reconstruction with its implicit representation. Building upon NeRF, 3D Gaussian Splatting (3D-GS) has departed from the implicit representation of neural networks and instead directly represents scenes as point clouds with Gaussian-shaped distributions. While this shift has notably elevated the rendering quality and speed of radiance fields but inevitably led to a significant increase in memory usage. Additionally, effectively rendering dynamic scenes in 3D-GS has emerged as a pressing challenge. To address these concerns, this paper purposes a refined 3D Gaussian representation for high-quality dynamic scene reconstruction. Firstly, we use a deformable multi-layer perceptron (MLP) network to capture the dynamic offset of Gaussian points and express the color features of points through hash encoding and a tiny MLP to reduce storage requirements. Subsequently, we introduce a learnable denoising mask coupled with denoising loss to eliminate noise points from the scene, thereby further compressing 3D Gaussian model. Finally, motion noise of points is mitigated through static constraints and motion consistency constraints. Experimental results demonstrate that our method surpasses existing approaches in rendering quality and speed, while significantly reducing the memory usage associated with 3D-GS, making it highly suitable for various tasks such as novel view synthesis, and dynamic mapping.
翻訳日:2024-05-29 19:57:23 公開日:2024-05-28
# LLMを用いた算術的推論:プロログ生成と置換

Arithmetic Reasoning with LLM: Prolog Generation & Permutation ( http://arxiv.org/abs/2405.17893v1 )

ライセンス: Link先を確認
Xiaocheng Yang, Bingsen Chen, Yik-Cheung Tam, (参考訳) 小学校数学の問題を解くための大規模言語モデル (LLM) の指導は、Chain of Thought (CoT) を用いて大きな成功を収めた。 しかし、CoT の手法は LLM に頼り、カスケード計算の誤りを生じやすい算術演算列を生成する。 我々は, LLM が数学問題記述から述語を抽出し, 記号式を生成することに集中して, 基礎となる計算を外部コードインタープリタで行うことを仮定する。 数学的な問題を解くために,LLMを用いてPrologプログラムを生成する。 実験結果から,GSM8KベンチマークにおけるPrologに基づく算術問題解は,3つの異なるLLM間でCoT生成に優れることがわかった。 さらに,Prologにおける述語や記号式の不感な順序付けを考慮し,データ拡張によるより堅牢なLLMトレーニングのために,基底真理述語をパーミュレートすることを提案する。

Instructing large language models (LLMs) to solve elementary school math problems has shown great success using Chain of Thought (CoT). However, the CoT approach relies on an LLM to generate a sequence of arithmetic calculations which can be prone to cascaded calculation errors. We hypothesize that an LLM should focus on extracting predicates and generating symbolic formulas from the math problem description so that the underlying calculation can be done via an external code interpreter. We investigate using LLM to generate Prolog programs to solve mathematical questions. Experimental results show that our Prolog-based arithmetic problem-solving outperforms CoT generation in the GSM8K benchmark across three distinct LLMs. In addition, given the insensitive ordering of predicates and symbolic formulas in Prolog, we propose to permute the ground truth predicates for more robust LLM training via data augmentation.
翻訳日:2024-05-29 19:57:23 公開日:2024-05-28
# 大規模ビジョンランゲージモデルに対するホワイトボックスマルチモーダルジェイルブレイク

White-box Multimodal Jailbreaks Against Large Vision-Language Models ( http://arxiv.org/abs/2405.17894v1 )

ライセンス: Link先を確認
Ruofan Wang, Xingjun Ma, Hanxu Zhou, Chuanjun Ji, Guangnan Ye, Yu-Gang Jiang, (参考訳) 近年のVLM(Large Vision-Language Models)の進歩は、様々なマルチモーダルタスクにおいて、その優位性を裏付けている。 しかしながら、VLMの対角的堅牢性は十分には研究されていない。 既存の手法は主に、テキストベースの攻撃に対して固有のレジリエンスを仮定しながら、画像を摂動する一元対向攻撃によるロバスト性を評価する。 既存の攻撃とは違って、本研究では、テキストと画像のモダリティの両方を共同攻撃して、VLM内のより広範な脆弱性を悪用する、より包括的な戦略を提案する。 具体的には,モデルに高毒性の肯定応答を生成するための2つの最適化手法を提案する。 本手法は, テキスト入力がない場合に, 有害な応答を多様に生成するために, 逆画像プレフィックスをランダムノイズから最適化することから始める。 その後、逆境テキスト接尾辞と逆境画像接頭辞とを一体化して、様々な有害な指示に対する肯定応答を誘発する確率を最大化する。 検出された逆画像プレフィックスとテキスト接尾辞は総称してユニバーサルマスターキー(UMK)と表記される。 様々な悪意のあるクエリに統合されると、UMKはVLMのアライメント防御を回避し、jailbreaksとして知られる好ましくないコンテンツを生成する。 実験の結果,我々のユニバーサルアタック戦略は,96%の成功率でMiniGPT-4を効果的に脱獄し,VLMの脆弱性と新たなアライメント戦略の必要性を強調した。

Recent advancements in Large Vision-Language Models (VLMs) have underscored their superiority in various multimodal tasks. However, the adversarial robustness of VLMs has not been fully explored. Existing methods mainly assess robustness through unimodal adversarial attacks that perturb images, while assuming inherent resilience against text-based attacks. Different from existing attacks, in this work we propose a more comprehensive strategy that jointly attacks both text and image modalities to exploit a broader spectrum of vulnerability within VLMs. Specifically, we propose a dual optimization objective aimed at guiding the model to generate affirmative responses with high toxicity. Our attack method begins by optimizing an adversarial image prefix from random noise to generate diverse harmful responses in the absence of text input, thus imbuing the image with toxic semantics. Subsequently, an adversarial text suffix is integrated and co-optimized with the adversarial image prefix to maximize the probability of eliciting affirmative responses to various harmful instructions. The discovered adversarial image prefix and text suffix are collectively denoted as a Universal Master Key (UMK). When integrated into various malicious queries, UMK can circumvent the alignment defenses of VLMs and lead to the generation of objectionable content, known as jailbreaks. The experimental results demonstrate that our universal attack strategy can effectively jailbreak MiniGPT-4 with a 96% success rate, highlighting the vulnerability of VLMs and the urgent need for new alignment strategies.
翻訳日:2024-05-29 19:57:23 公開日:2024-05-28
# C^2M^3$:Cycle-Consistent Multi-Model Merging

$C^2M^3$: Cycle-Consistent Multi-Model Merging ( http://arxiv.org/abs/2405.17897v1 )

ライセンス: Link先を確認
Donato Crisostomi, Marco Fumero, Daniele Baieri, Florian Bernard, Emanuele Rodolà, (参考訳) 本稿では,重み空間にニューラルネットワークをマージする新しいデータフリー手法を提案する。 本手法は,既存の研究と異なり,全層にわたるネットワークニューロンの置換を最適化する。 これにより、$N \geq 3$モデルをマージする際の置換のサイクル一貫性を強制することができ、経路に沿ってエラーを蓄積することなく、置換の円形合成を計算できる。 このような制約の必要性を質的かつ定量的に動機付け、さまざまなアーキテクチャやデータセットにまたがるシナリオにおいて、モデルのセットをマージする際のメリットを示します。 最終的に、アクティベーション再正規化と組み合わせると、我々の手法がタスクの最良の結果をもたらすことを示す。

In this paper, we present a novel data-free method for merging neural networks in weight space. Differently from most existing works, our method optimizes for the permutations of network neurons globally across all layers. This allows us to enforce cycle consistency of the permutations when merging $N \geq 3$ models, allowing circular compositions of permutations to be computed without accumulating error along the path. We qualitatively and quantitatively motivate the need for such a constraint, showing its benefits when merging sets of models in scenarios spanning varying architectures and datasets. We finally show that, when coupled with activation renormalization, our approach yields the best results in the task.
翻訳日:2024-05-29 19:57:23 公開日:2024-05-28
# FlashST: トラフィック予測のためのシンプルで普遍的なプロンプトチューニングフレームワーク

FlashST: A Simple and Universal Prompt-Tuning Framework for Traffic Prediction ( http://arxiv.org/abs/2405.17898v1 )

ライセンス: Link先を確認
Zhonghang Li, Lianghao Xia, Yong Xu, Chao Huang, (参考訳) 交通予測の目的は、空間と時間の両方を考慮して交通パターンのダイナミクスを正確に予測し、分析することである。 しかし、既存のモデルでは、トレーニング分布と大きく異なるテストデータに直面すると、一般化に苦慮しているため、分布シフトの存在はこの分野において大きな課題となる。 本稿では,多様な下流データセットの特徴に事前学習したモデルを適応させ,多様なトラフィック予測シナリオにおける一般化を改善する,シンプルで汎用的な時空間プロンプトチューニングフレームワーク-FlashSTを提案する。 特に、FlashSTフレームワークは、文脈内学習のための軽量な時空間プロンプトネットワークを使用し、時空間不変の知識を捉え、多様なシナリオへの効果的な適応を容易にする。 さらに,事前学習データと下流データの分布を整合させる分布マッピング機構を導入し,時空間予測における効果的な知識伝達を容易にする。 多様な都市データセットを用いた時空間予測タスクにおけるFlashSTの有効性を実証的に評価した。 コードはhttps://github.com/HKUDS/FlashSTで入手できる。

The objective of traffic prediction is to accurately forecast and analyze the dynamics of transportation patterns, considering both space and time. However, the presence of distribution shift poses a significant challenge in this field, as existing models struggle to generalize well when faced with test data that significantly differs from the training distribution. To tackle this issue, this paper introduces a simple and universal spatio-temporal prompt-tuning framework-FlashST, which adapts pre-trained models to the specific characteristics of diverse downstream datasets, improving generalization in diverse traffic prediction scenarios. Specifically, the FlashST framework employs a lightweight spatio-temporal prompt network for in-context learning, capturing spatio-temporal invariant knowledge and facilitating effective adaptation to diverse scenarios. Additionally, we incorporate a distribution mapping mechanism to align the data distributions of pre-training and downstream data, facilitating effective knowledge transfer in spatio-temporal forecasting. Empirical evaluations demonstrate the effectiveness of our FlashST across different spatio-temporal prediction tasks using diverse urban datasets. Code is available at https://github.com/HKUDS/FlashST.
翻訳日:2024-05-29 19:57:23 公開日:2024-05-28
# 感情の相互融合とクラス間コントラスト学習による会話における感情認識の促進

Enhancing Emotion Recognition in Conversation through Emotional Cross-Modal Fusion and Inter-class Contrastive Learning ( http://arxiv.org/abs/2405.17900v1 )

ライセンス: Link先を確認
Haoxiang Shi, Xulong Zhang, Ning Cheng, Yong Zhang, Jun Yu, Jing Xiao, Jianzong Wang, (参考訳) 会話における感情認識の目的は、文脈情報に基づいて発話の感情カテゴリーを特定することである。 従来のERC法は、モーダル融合のための単純な接続に依存しており、モダリティ間の情報差を無視していたため、モデルがモダリティ固有の感情情報に集中できなかった。 同時に、モダリティ間の共有情報は、感情を生成するために処理されなかった。 情報冗長性の問題。 これらの制限を克服するために,ベクトル接続に基づくモーダル融合感情予測ネットワークを提案する。 ネットワークは主に、接続ベクトルに基づくマルチモーダル特徴融合ステージと、融合特徴に基づく感情分類ステージの2段階を含む。 さらに,感情ラベルに基づく教師付きクラス間コントラスト学習モジュールを設計する。 実験の結果,提案手法の有効性を確認し,IEMOCAPおよびMELDデータセット上での優れた性能を示した。

The purpose of emotion recognition in conversation (ERC) is to identify the emotion category of an utterance based on contextual information. Previous ERC methods relied on simple connections for cross-modal fusion and ignored the information differences between modalities, resulting in the model being unable to focus on modality-specific emotional information. At the same time, the shared information between modalities was not processed to generate emotions. Information redundancy problem. To overcome these limitations, we propose a cross-modal fusion emotion prediction network based on vector connections. The network mainly includes two stages: the multi-modal feature fusion stage based on connection vectors and the emotion classification stage based on fused features. Furthermore, we design a supervised inter-class contrastive learning module based on emotion labels. Experimental results confirm the effectiveness of the proposed method, demonstrating excellent performance on the IEMOCAP and MELD datasets.
翻訳日:2024-05-29 19:57:23 公開日:2024-05-28
# リモートセンシングにおける視覚変換器の近赤外・低域適応

Near-Infrared and Low-Rank Adaptation of Vision Transformers in Remote Sensing ( http://arxiv.org/abs/2405.17901v1 )

ライセンス: Link先を確認
Irem Ulku, O. Ozgur Tanriover, Erdem Akagündüz, (参考訳) 植物の健康状態は、近赤外線反射率(NIR)を測定するマルチスペクトルセンサーを用いて動的に監視することができる。 このような可能性にもかかわらず、高解像度のNIR画像の取得と注釈付けは、ディープニューラルネットワークのトレーニングにおいて重要な課題となっている。 通常、RGBドメインで事前トレーニングされた大きなネットワークは、赤外線画像の微調整に利用される。 本手法では,RGB と NIR 画像の視覚特性が異なるため,領域シフトの問題が発生するが,ローランク適応 (LoRA) と呼ばれる手法は,元のネットワーク重みを凍結させながらランク分解行列を最適化することにより,より効率的なトレーニングを可能にする。 しかし、リモートセンシング画像に対する既存のパラメータ効率適応戦略は、RGB画像とNIR領域におけるドメインシフト問題に重点を置いている。 そこで本研究では,RGB領域で事前学習した視覚トランスフォーマー(ViT)バックボーンを,NIR領域の下流タスクに低ランク適応させることのメリットについて検討した。 広汎な実験により、トレーニング済みのViTバックボーンにLoRAを用いることで、NIR画像に適用された下流タスクに最高のパフォーマンスが得られることが示されている。

Plant health can be monitored dynamically using multispectral sensors that measure Near-Infrared reflectance (NIR). Despite this potential, obtaining and annotating high-resolution NIR images poses a significant challenge for training deep neural networks. Typically, large networks pre-trained on the RGB domain are utilized to fine-tune infrared images. This practice introduces a domain shift issue because of the differing visual traits between RGB and NIR images.As an alternative to fine-tuning, a method called low-rank adaptation (LoRA) enables more efficient training by optimizing rank-decomposition matrices while keeping the original network weights frozen. However, existing parameter-efficient adaptation strategies for remote sensing images focus on RGB images and overlook domain shift issues in the NIR domain. Therefore, this study investigates the potential benefits of using vision transformer (ViT) backbones pre-trained in the RGB domain, with low-rank adaptation for downstream tasks in the NIR domain. Extensive experiments demonstrate that employing LoRA with pre-trained ViT backbones yields the best performance for downstream tasks applied to NIR images.
翻訳日:2024-05-29 19:57:23 公開日:2024-05-28
# 負のサンプルマイニングによるタンパク質言語モデルの構築

Boosting Protein Language Models with Negative Sample Mining ( http://arxiv.org/abs/2405.17902v1 )

ライセンス: Link先を確認
Yaoyao Xu, Xinjian Zhao, Xiaozhuang Song, Benyou Wang, Tianshu Yu, (参考訳) 本稿では,タンパク質表現学習分野における大規模言語モデル向上のための先駆的手法を提案する。 我々の主な貢献は、共進化の知識の過度な信頼性を関連付けるための改良プロセスであり、ネットワークは異なるカテゴリから得られるタンパク質対によって構成される負のサンプルから貴重な洞察を抽出するように訓練されている。 本手法は,この新たなアプローチを活かして,注目スコア空間内でのトランスフォーマーベースモデルのトレーニングを支援する。 この先進的な戦略は、性能を増幅するだけでなく、タンパク質によって示されるニュアンスな生物学的挙動を反映し、タンパク質とタンパク質の相互作用のような従来の生物学的メカニズムと整合した証拠を提供する。 確立された大規模タンパク質モデルを用いて,データセット上での各種タスクの性能向上を実験的に観察した。 この革新的なパラダイムは、タンパク質研究と計算生物学の領域でさらなる進歩を期待できる地平を開く。

We introduce a pioneering methodology for boosting large language models in the domain of protein representation learning. Our primary contribution lies in the refinement process for correlating the over-reliance on co-evolution knowledge, in a way that networks are trained to distill invaluable insights from negative samples, constituted by protein pairs sourced from disparate categories. By capitalizing on this novel approach, our technique steers the training of transformer-based models within the attention score space. This advanced strategy not only amplifies performance but also reflects the nuanced biological behaviors exhibited by proteins, offering aligned evidence with traditional biological mechanisms such as protein-protein interaction. We experimentally observed improved performance on various tasks over datasets, on top of several well-established large protein models. This innovative paradigm opens up promising horizons for further progress in the realms of protein research and computational biology.
翻訳日:2024-05-29 19:57:23 公開日:2024-05-28
# マルチモーダルハイブリッド特徴抽出と変圧器ベース融合による信頼性物体追跡

Reliable Object Tracking by Multimodal Hybrid Feature Extraction and Transformer-Based Fusion ( http://arxiv.org/abs/2405.17903v1 )

ライセンス: Link先を確認
Hongze Sun, Rui Liu, Wuque Cai, Jun Wang, Yue Wang, Huajin Tang, Yan Cui, Dezhong Yao, Daqing Guo, (参考訳) 視覚オブジェクト追跡は主に可視光画像シーケンスに基づいており、低照度条件、高ダイナミックレンジ、背景乱れといった複雑なシナリオで多くの課題に直面している。 これらの課題に対処するために、複数の視覚的モダリティの利点を取り入れることが、信頼できるオブジェクト追跡を実現するための有望な解決策である。 しかし、既存のアプローチは通常、適応的な局所的特徴相互作用を通じてマルチモーダルな入力を統合するため、視覚的手がかりの潜在能力を最大限に活用できないため、機能モデリングが不十分である。 本研究では,信頼度の高い単一オブジェクト追跡にフレームイベントベースのデータを利用する新しいマルチモーダルハイブリッドトラッカー (MMHT) を提案する。 MMHTモデルは、人工ニューラルネットワーク(ANN)とスパイキングニューラルネットワーク(SNN)からなるハイブリッドバックボーンを使用して、異なる視覚的モダリティから支配的な特徴を抽出し、統一エンコーダを使用して、異なるドメインにまたがる特徴を整列させる。 さらに,アテンション機構を用いてマルチモーダル特徴を融合する改良されたトランスフォーマーベースモジュールを提案する。 これらの手法により、MMHTモデルは多次元・多次元の視覚的特徴空間を効果的に構築し、識別的特徴モデリングを実現することができる。 MMHTモデルは,他の最先端手法と比較して,競争性能を示すことを示した。 本結果は,視覚的物体追跡タスクにおいて直面する課題に対処する上で,MMHTモデルの有効性を強調した。

Visual object tracking, which is primarily based on visible light image sequences, encounters numerous challenges in complicated scenarios, such as low light conditions, high dynamic ranges, and background clutter. To address these challenges, incorporating the advantages of multiple visual modalities is a promising solution for achieving reliable object tracking. However, the existing approaches usually integrate multimodal inputs through adaptive local feature interactions, which cannot leverage the full potential of visual cues, thus resulting in insufficient feature modeling. In this study, we propose a novel multimodal hybrid tracker (MMHT) that utilizes frame-event-based data for reliable single object tracking. The MMHT model employs a hybrid backbone consisting of an artificial neural network (ANN) and a spiking neural network (SNN) to extract dominant features from different visual modalities and then uses a unified encoder to align the features across different domains. Moreover, we propose an enhanced transformer-based module to fuse multimodal features using attention mechanisms. With these methods, the MMHT model can effectively construct a multiscale and multidimensional visual feature space and achieve discriminative feature modeling. Extensive experiments demonstrate that the MMHT model exhibits competitive performance in comparison with that of other state-of-the-art methods. Overall, our results highlight the effectiveness of the MMHT model in terms of addressing the challenges faced in visual object tracking tasks.
翻訳日:2024-05-29 19:57:23 公開日:2024-05-28
# Cycle-YOLO: 舗装損傷検出のための効率的でロバストなフレームワーク

Cycle-YOLO: A Efficient and Robust Framework for Pavement Damage Detection ( http://arxiv.org/abs/2405.17905v1 )

ライセンス: Link先を確認
Zhengji Li, Xi Xiao, Jiacheng Xie, Yuxiao Fan, Wentao Wang, Gang Chen, Liqiang Zhang, Tianyang Wang, (参考訳) 近代社会の発展に伴い、世界のほとんどの国で交通量が増加し続けており、舗装損傷率の上昇につながっているため、リアルタイムかつ高精度な舗装損傷検出・維持が現在必要となっている。 本稿では,CycleGANと改良YOLOv5アルゴリズムを用いた舗装損傷検出手法を提案する。 初期データセットとして7644枚の自己収集画像を選択し,CycleGANにより拡張した。 そこで我々は,Scharrフィルタ,CycleGAN,ラプラシアンピラミッドを改良したデータ拡張手法を提案する。 YOLOv5ネットワークにおける空間ピラミッドプーリング高速モジュールがマルチスケールターゲットを扱えないという課題を解消し,複雑な背景における目標認識効果を向上させるために,畳み込みブロックアテンションモジュールアテンション機構を導入し,圧縮・励起構造を持つアトラス空間ピラミッドプーリングを提案する。 さらに,CIoUをEIoUに置き換えることで,YOLOv5の損失関数を最適化した。 実験の結果, クラック, ポットホール, パッチングの3種類の舗装損傷の検出において, 精度0.872, 精度0.854, 平均精度0.882, 平均精度@0.5が得られた。 GPUでは、毎秒のフレームが68に到達し、リアルタイム検出の要件を満たした。 その全体的な性能は、現在のより進んだYOLOv7を超え、実用的な応用において優れた成果を上げ、舗装損傷の検出と予防の意思決定の基盤となった。

With the development of modern society, traffic volume continues to increase in most countries worldwide, leading to an increase in the rate of pavement damage Therefore, the real-time and highly accurate pavement damage detection and maintenance have become the current need. In this paper, an enhanced pavement damage detection method with CycleGAN and improved YOLOv5 algorithm is presented. We selected 7644 self-collected images of pavement damage samples as the initial dataset and augmented it by CycleGAN. Due to a substantial difference between the images generated by CycleGAN and real road images, we proposed a data enhancement method based on an improved Scharr filter, CycleGAN, and Laplacian pyramid. To improve the target recognition effect on a complex background and solve the problem that the spatial pyramid pooling-fast module in the YOLOv5 network cannot handle multiscale targets, we introduced the convolutional block attention module attention mechanism and proposed the atrous spatial pyramid pooling with squeeze-and-excitation structure. In addition, we optimized the loss function of YOLOv5 by replacing the CIoU with EIoU. The experimental results showed that our algorithm achieved a precision of 0.872, recall of 0.854, and mean average precision@0.5 of 0.882 in detecting three main types of pavement damage: cracks, potholes, and patching. On the GPU, its frames per second reached 68, meeting the requirements for real-time detection. Its overall performance even exceeded the current more advanced YOLOv7 and achieved good results in practical applications, providing a basis for decision-making in pavement damage detection and prevention.
翻訳日:2024-05-29 19:57:23 公開日:2024-05-28
# ヒューマン・コボットのコラボレーションが組立作業における成功・時間補完・エラー・作業負荷・ジェスチャー・受容性に及ぼす影響

Human-Cobot collaboration's impact on success, time completion, errors, workload, gestures and acceptability during an assembly task ( http://arxiv.org/abs/2405.17910v1 )

ライセンス: Link先を確認
Étienne Fournier, Christine Jeoffrion, Belal Hmedan, Damien Pellier, Humbert Fiorino, Aurélie Landry, (参考訳) 5.0産業はコラボロボット(コボット)を推進している。 本研究では,実験装置を用いたコボットコラボレーションの効果について検討した。 120人の参加者が単純で複雑な組み立て作業を実現しました。 50%が他のヒト(H/H)、50%がコボット(H/C)であった。 作業負荷とコボティックコラボレーションの受容性を測定した。 コボットで作業することで、タスクの複雑さが人間の作業負荷や出力品質に与える影響を減らします。 しかし、それは時間補完とジェスチャーの数を増やす(頻度を減らしながら)。 H/Cカップルは成功する確率が高いが、タスクを実現するにはより多くの時間とジェスチャーが必要になる。 この研究の結果は、開発者やステークホルダーがプロダクションチェーンでコボットを実装することの影響を理解するのに役立つだろう。

The 5.0 industry promotes collaborative robots (cobots). This research studies the impacts of cobot collaboration using an experimental setup. 120 participants realized a simple and a complex assembly task. 50% collaborated with another human (H/H) and 50% with a cobot (H/C). The workload and the acceptability of the cobotic collaboration were measured. Working with a cobot decreases the effect of the task complexity on the human workload and on the output quality. However, it increases the time completion and the number of gestures (while decreasing their frequency). The H/C couples have a higher chance of success but they take more time and more gestures to realize the task. The results of this research could help developers and stakeholders to understand the impacts of implementing a cobot in production chains.
翻訳日:2024-05-29 19:57:23 公開日:2024-05-28
# OV-DQUO:Denoising Text Query Training and Open-World Unknown Objects Supervisionによるオープン語彙DETR

OV-DQUO: Open-Vocabulary DETR with Denoising Text Query Training and Open-World Unknown Objects Supervision ( http://arxiv.org/abs/2405.17913v1 )

ライセンス: Link先を確認
Junjie Wang, Bin Chen, Bin Kang, Yulin Li, YiChi Chen, Weizhi Xian, Huifeng Chang, (参考訳) Open-Vocabulary Detection (OVD) は、検出器が訓練される基本カテゴリを越えて、新しいカテゴリからオブジェクトを検出することを目的としている。 しかし、既知のカテゴリデータに基づいて訓練された既存のオープン語彙検出器は、訓練されたカテゴリに高い信頼を割り当て、新しいカテゴリを背景と混同する傾向がある。 そこで,本稿では,OV-DQUO(OV-DQUO)を提案する。OV-DQUO(OV-DQUO)は,OV-DQUO(OV-DQUO)という,OV-DQUO(OV-DQUO)という,OV-DQUO(OF{O}pen-\textbf{V}ocabulary DETR)を付与する。 具体的には,オープンワールド検出器によって認識される未知のオブジェクトのペアと,一般的な意味論によるテキスト埋め込みから学習し,ベースと新規のカテゴリ間の信頼バイアスを緩和するワイルドカードマッチング手法を提案する。 さらに,未知の未知のオブジェクトからノイズの多いクエリボックスペアを合成し,対照的な学習を通じて検出者を訓練し,新しいオブジェクトを背景から識別する能力を向上する。 我々は,OV-COCOとOV-LVISベンチマークの試行を行い,新たなカテゴリでそれぞれ45.6 AP50と39.3 mAPの試験結果を得た。 モデルとコードはhttps://github.com/xiaomoguhz/OV-DQUOでリリースされる

Open-Vocabulary Detection (OVD) aims to detect objects from novel categories beyond the base categories on which the detector is trained. However, existing open-vocabulary detectors trained on known category data tend to assign higher confidence to trained categories and confuse novel categories with background. To resolve this, we propose OV-DQUO, an \textbf{O}pen-\textbf{V}ocabulary DETR with \textbf{D}enoising text \textbf{Q}uery training and open-world \textbf{U}nknown \textbf{O}bjects supervision. Specifically, we introduce a wildcard matching method that enables the detector to learn from pairs of unknown objects recognized by the open-world detector and text embeddings with general semantics, mitigating the confidence bias between base and novel categories. Additionally, we propose a denoising text query training strategy that synthesizes additional noisy query-box pairs from open-world unknown objects to trains the detector through contrastive learning, enhancing its ability to distinguish novel objects from the background. We conducted extensive experiments on the challenging OV-COCO and OV-LVIS benchmarks, achieving new state-of-the-art results of 45.6 AP50 and 39.3 mAP on novel categories respectively, without the need for additional training data. Models and code are released at https://github.com/xiaomoguhz/OV-DQUO
翻訳日:2024-05-29 19:47:39 公開日:2024-05-28
# 無線IIoTネットワークにおけるブロックチェーン対応ディジタルツインのための信頼できるDNN分割

Trustworthy DNN Partition for Blockchain-enabled Digital Twin in Wireless IIoT Networks ( http://arxiv.org/abs/2405.17914v1 )

ライセンス: Link先を確認
Xiumei Deng, Jun Li, Long Shi, Kang Wei, Ming Ding, Yumeng Shao, Wen Chen, Shi Jin, (参考訳) 産業用モノのインターネット(IIoT)ネットワークにおける製造効率を高めるための有望なソリューションとして、Digital twin (DT)が登場した。 無線IIoTネットワークにおけるDTの効率性と信頼性向上を目的として,ディープニューラルネットワーク(DNN)パーティショニング技術と評価に基づくコンセンサス機構を用いたブロックチェーン対応DT(B-DT)フレームワークを提案する。 まず,トップレイヤのDNN推論タスクをアクセスポイント側(AP)にオフロードすることで,ゲートウェイ側の計算負担を軽減し,DNN推論の効率を向上させる。 次に,Pow of Work(PoW)とProof of Stake(PoS)を統合した評価に基づくコンセンサス機構を提案する。 具体的には、DNN推論タスクに対する計算資源の貢献に基づいて、各APのオフチェーン評価を評価し、オフチェーン評価をブロック生成の難しさを調整するための手段として利用する。 第3に,通信資源(パーティションポイント)と計算資源割り当て(トップレイヤDNN推論とブロック生成のためのAPの計算頻度)の確率的最適化問題を定式化し,時間変化チャネル状態とオフチェーン評価の長期的制約の下でシステム遅延を最小限に抑えるとともに,リアプノフ最適化法を用いて問題を解く。 実験結果から,提案した動的DNNパーティショニングと資源配分(DPRA)アルゴリズムは,B-DTシステムの信頼性を確保しつつ,全体のレイテンシを低減し,ベースラインよりも優れた性能を示すことがわかった。

Digital twin (DT) has emerged as a promising solution to enhance manufacturing efficiency in industrial Internet of Things (IIoT) networks. To promote the efficiency and trustworthiness of DT for wireless IIoT networks, we propose a blockchain-enabled DT (B-DT) framework that employs deep neural network (DNN) partitioning technique and reputation-based consensus mechanism, wherein the DTs maintained at the gateway side execute DNN inference tasks using the data collected from their associated IIoT devices. First, we employ DNN partitioning technique to offload the top-layer DNN inference tasks to the access point (AP) side, which alleviates the computation burden at the gateway side and thereby improves the efficiency of DNN inference. Second, we propose a reputation-based consensus mechanism that integrates Proof of Work (PoW) and Proof of Stake (PoS). Specifically, the proposed consensus mechanism evaluates the off-chain reputation of each AP according to its computation resource contributions to the DNN inference tasks, and utilizes the off-chain reputation as a stake to adjust the block generation difficulty. Third, we formulate a stochastic optimization problem of communication resource (i.e., partition point) and computation resource allocation (i.e., computation frequency of APs for top-layer DNN inference and block generation) to minimize system latency under the time-varying channel state and long-term constraints of off-chain reputation, and solve the problem using Lyapunov optimization method. Experimental results show that the proposed dynamic DNN partitioning and resource allocation (DPRA) algorithm outperforms the baselines in terms of reducing the overall latency while guaranteeing the trustworthiness of the B-DT system.
翻訳日:2024-05-29 19:47:39 公開日:2024-05-28
# 長期コンテキストは長くない:大規模言語モデルのための長期依存データの展望

Long Context is Not Long at All: A Prospector of Long-Dependency Data for Large Language Models ( http://arxiv.org/abs/2405.17915v1 )

ライセンス: Link先を確認
Longze Chen, Ziqiang Liu, Wanwei He, Yunshui Li, Run Luo, Min Yang, (参考訳) 長いコンテキストモデリング機能は、様々なアプリケーションにおいて大きな言語モデル(LLM)にとって重要である。 しかし、長いコンテキストウィンドウでLLMを直接訓練することは、長いコンテキスト間で強いセマンティック依存関係を示さないトレーニングサンプルがあるため、この機能を強化するには不十分である。 そこで本研究では,LLMトレーニングにおける長文モデリング能力の向上に有効であるサンプルのランク付けやフィルタリングに使用可能な,各トレーニングサンプルに長文依存スコアを割り当てることのできるデータマイニングフレームワークである「textbf{ProLong}」を提案する。 具体的には,文書中のテキストセグメント間の‘textit{Dependency Strength}’を測定するためにデルタパープレキシティスコアを使用する。 次に、これらのセグメントの \textit{Dependency Distance} に基づいて、このメトリックを洗練し、長文間の空間的関係を組み込む。 最終的な結果は、繰り返しパターンによって導入された自明な依存関係を防ぐために、‘textit{Dependency Specificity} メトリックでキャリブレーションされる。 さらに,ProLongの計算効率を最適化するために,ランダムサンプリング手法を提案する。 複数のベンチマークの総合的な実験により、ProLongは、長い依存関係を持つ文書を効果的に識別し、これらの文書で訓練されたLLMは、大幅に拡張された長期コンテキストモデリング能力を示すことが示されている。

Long-context modeling capabilities are important for large language models (LLMs) in various applications. However, directly training LLMs with long context windows is insufficient to enhance this capability since some training samples do not exhibit strong semantic dependencies across long contexts. In this study, we propose a data mining framework \textbf{ProLong} that can assign each training sample with a long dependency score, which can be used to rank and filter samples that are more advantageous for enhancing long-context modeling abilities in LLM training. Specifically, we first use delta perplexity scores to measure the \textit{Dependency Strength} between text segments in a given document. Then we refine this metric based on the \textit{Dependency Distance} of these segments to incorporate spatial relationships across long-contexts. Final results are calibrated with a \textit{Dependency Specificity} metric to prevent trivial dependencies introduced by repetitive patterns. Moreover, a random sampling approach is proposed to optimize the computational efficiency of ProLong. Comprehensive experiments on multiple benchmarks indicate that ProLong effectively identifies documents that carry long dependencies and LLMs trained on these documents exhibit significantly enhanced long-context modeling capabilities.
翻訳日:2024-05-29 19:47:39 公開日:2024-05-28
# 実世界の画像における一般トリマップフリーマッティングの強化

Boosting General Trimap-free Matting in the Real-World Image ( http://arxiv.org/abs/2405.17916v1 )

ライセンス: Link先を確認
Leo Shan Wenzhang Zhou Grace Zhao, (参考訳) 画像マッチングは、前景のオブジェクトを背景から正確に分離するアルファマットを取得することを目的としている。 近年,余分な入力を伴わないオリジナル画像のみを必要とするため,トリマップフリーなマッティングがよく研究されている。 このような方法は通常、より詳細なガイダンスとして、粗い前景をそれ自体で抽出してトリマップする。 しかし、「地上」の定義には統一的な基準が欠如しており、あいまいさが生じる。 また、ネットワーク設計が不十分なため、抽出した前景が不完全である場合もある。 最も重要なのは、大規模な実世界のマッチングデータセットはなく、合成画像で訓練された現在のトリマップフリーメソッドは、実際には大きなドメインシフト問題に悩まされていることだ。 本稿では,人間の認識と現在のマッチングデータセットのアノテーションに整合した,有能なオブジェクトを前景として定義する。 一方、健全な物体検出におけるデータや技術は、ブレーズでマットに転送することができる。 より正確で完全なアルファマットを得るため,我々は,完全かつ正確なアルファマットの複数の機能を完全に統合した,‘textbf{M}ulti-\textbf{F}eature fusion-based \textbf{C}oarse-to-fine Network‘textbf{(MFC-Net)} というネットワークを提案する。 さらに,合成画像と実画像のギャップを埋めるために,データ合成における画像調和を導入する。 さらに重要なことは、現在までの現実世界で最大の一般的なマッチングデータセット \textbf{(Real-19k)} を確立することである。 実験の結果,本手法は合成画像と実世界の画像の両方に有効であり,実世界のデータセットの性能は既存のマットフリー手法よりもはるかに優れていることがわかった。 コードとデータはまもなく公開されるでしょう。

Image matting aims to obtain an alpha matte that separates foreground objects from the background accurately. Recently, trimap-free matting has been well studied because it requires only the original image without any extra input. Such methods usually extract a rough foreground by itself to take place trimap as further guidance. However, the definition of 'foreground' lacks a unified standard and thus ambiguities arise. Besides, the extracted foreground is sometimes incomplete due to inadequate network design. Most importantly, there is not a large-scale real-world matting dataset, and current trimap-free methods trained with synthetic images suffer from large domain shift problems in practice. In this paper, we define the salient object as foreground, which is consistent with human cognition and annotations of the current matting dataset. Meanwhile, data and technologies in salient object detection can be transferred to matting in a breeze. To obtain a more accurate and complete alpha matte, we propose a network called \textbf{M}ulti-\textbf{F}eature fusion-based \textbf{C}oarse-to-fine Network \textbf{(MFC-Net)}, which fully integrates multiple features for an accurate and complete alpha matte. Furthermore, we introduce image harmony in data composition to bridge the gap between synthetic and real images. More importantly, we establish the largest general matting dataset \textbf{(Real-19k)} in the real world to date. Experiments show that our method is significantly effective on both synthetic and real-world images, and the performance in the real-world dataset is far better than existing matting-free methods. Our code and data will be released soon.
翻訳日:2024-05-29 19:47:39 公開日:2024-05-28
# 学習曲線外挿の伝達によるコスト感性多重忠実ベイズ最適化

Cost-Sensitive Multi-Fidelity Bayesian Optimization with Transfer of Learning Curve Extrapolation ( http://arxiv.org/abs/2405.17918v1 )

ライセンス: Link先を確認
Dong Bok Lee, Aoxuan Silvia Zhang, Byungjoo Kim, Junhyeon Park, Juho Lee, Sung Ju Hwang, Hae Beom Lee, (参考訳) 本稿では,高パラメータ最適化 (HPO) のためのコスト依存型多要素ベイズ最適化 (BO) の問題に対処する。 具体的には,必要な計算コストに対して性能改善が不十分な場合に,ユーザがBOの早期停止を希望するシナリオを仮定する。 このシナリオを動機として,各ユーザが事前に定義したユーティリティを導入し,BOのコストと性能のトレードオフを記述する。 このユーティリティ関数は,新たな取得機能や基準の停止と組み合わせて,将来最大化を期待するBOステップ毎に動的に選択すると同時に,BOを最大化するためのBOを自動的に停止する。 さらに,移動学習を用いた既存の学習曲線外挿法(LC)のサンプル効率を向上させるとともに,異なる構成間の相関関係の把握に成功し,多要素BOのための有意義なサロゲート関数を開発した。 提案手法をLCデータセット上で検証した結果,従来の複数ファイルBOや転送BOベースラインよりも優れており,BOのコストと性能のトレードオフが大幅に向上していることがわかった。

In this paper, we address the problem of cost-sensitive multi-fidelity Bayesian Optimization (BO) for efficient hyperparameter optimization (HPO). Specifically, we assume a scenario where users want to early-stop the BO when the performance improvement is not satisfactory with respect to the required computational cost. Motivated by this scenario, we introduce utility, which is a function predefined by each user and describes the trade-off between cost and performance of BO. This utility function, combined with our novel acquisition function and stopping criterion, allows us to dynamically choose for each BO step the best configuration that we expect to maximally improve the utility in future, and also automatically stop the BO around the maximum utility. Further, we improve the sample efficiency of existing learning curve (LC) extrapolation methods with transfer learning, while successfully capturing the correlations between different configurations to develop a sensible surrogate function for multi-fidelity BO. We validate our algorithm on various LC datasets and found it outperform all the previous multi-fidelity BO and transfer-BO baselines we consider, achieving significantly better trade-off between cost and performance of BO.
翻訳日:2024-05-29 19:47:39 公開日:2024-05-28
# クリニカルAIフェアネスに向けて:パズルにギャップを埋める

Towards Clinical AI Fairness: Filling Gaps in the Puzzle ( http://arxiv.org/abs/2405.17921v1 )

ライセンス: Link先を確認
Mingxuan Liu, Yilin Ning, Salinelat Teixayavong, Xiaoxuan Liu, Mayli Mertens, Yuqing Shang, Xin Li, Di Miao, Jie Xu, Daniel Shu Wei Ting, Lionel Tim-Ee Cheng, Jasmine Chiat Ling Ong, Zhen Ling Teo, Ting Fang Tan, Narrendar RaviChandran, Fei Wang, Leo Anthony Celi, Marcus Eng Hock Ong, Nan Liu, (参考訳) 医療における人工知能(AI)の倫理的統合は、医療分野にまたがってコンテキスト固有の概念であるフェアネスに対処する必要がある。 AIフェアネスの技術的コンポーネントを拡張するために、広範囲にわたる研究が実施されている一方、AIフェアネスを求める声は、医療から大きく上がっている。 それにもかかわらず、技術的進歩と実践的臨床応用の間には重大な断絶が続き、臨床環境におけるAIフェアネスに関する文脈的議論が欠如している。 詳細なエビデンスギャップ分析を通じて、我々のレビューは、医療データと提供されたAIフェアネスソリューションの両方に関して、いくつかの欠陥を系統的に指摘する。 AI技術がますます活用されている多くの医療分野において、AIフェアネスの研究の欠如を強調している。 さらに、マクロ医療システムの観点から、人口集団間の平等を確保することを目的として、グループフェアネスにかなり依存していることを強調し、対照的に、より粒度の細かいエクイティに焦点をあてた個人フェアネスは、しばしば見過ごされる。 これらのギャップを埋めるために、我々のレビューは医療研究コミュニティとAI研究コミュニティの両方にとって実行可能な戦略を前進させます。 医療に既存のAIフェアネスメソッドを適用すること以外にも、医療専門家がAIフェアネスの概念と手法を洗練させ、医療におけるAIアプリケーションに文脈的に関連があり倫理的に健全であるようにすることの重要性をさらに強調する。

The ethical integration of Artificial Intelligence (AI) in healthcare necessitates addressing fairness-a concept that is highly context-specific across medical fields. Extensive studies have been conducted to expand the technical components of AI fairness, while tremendous calls for AI fairness have been raised from healthcare. Despite this, a significant disconnect persists between technical advancements and their practical clinical applications, resulting in a lack of contextualized discussion of AI fairness in clinical settings. Through a detailed evidence gap analysis, our review systematically pinpoints several deficiencies concerning both healthcare data and the provided AI fairness solutions. We highlight the scarcity of research on AI fairness in many medical domains where AI technology is increasingly utilized. Additionally, our analysis highlights a substantial reliance on group fairness, aiming to ensure equality among demographic groups from a macro healthcare system perspective; in contrast, individual fairness, focusing on equity at a more granular level, is frequently overlooked. To bridge these gaps, our review advances actionable strategies for both the healthcare and AI research communities. Beyond applying existing AI fairness methods in healthcare, we further emphasize the importance of involving healthcare professionals to refine AI fairness concepts and methods to ensure contextually relevant and ethically sound AI applications in healthcare.
翻訳日:2024-05-29 19:47:39 公開日:2024-05-28
# ジェネレーティブAIはチームパフォーマンスを高め、従来のチームの必要性を減らす

Generative AI Enhances Team Performance and Reduces Need for Traditional Teams ( http://arxiv.org/abs/2405.17924v1 )

ライセンス: Link先を確認
Ning Li, Huaikang Zhou, Kris Mikel-Hong, (参考訳) 生成人工知能(AI)の最近の進歩は協調作業プロセスに変化をもたらしたが、チームパフォーマンスへの影響は未解明のままである。 ここでは,122チームにわたる435人の参加者によるランダム化制御実験を用いて,従来のチームダイナミクスの強化や置き換えにおける生成AIの役割について検討する。 生成的AIによって強化されたチームは、さまざまなパフォーマンス指標で、人間のコラボレーションにのみ依存しているチームよりも大幅に優れていた。 興味深いことに、複数のAIを持つチームはそれ以上の利益を示しておらず、AI統合の増大によるリターンの減少を示唆している。 我々の分析によると、少数のチームメンバーによる集中型AIの使用は、分散エンゲージメントよりも効果的である。 さらに、個人とAIのペアは従来のチームのパフォーマンスにマッチし、いくつかのコンテキストにおける従来のチーム構造の必要性を減らしたことを示唆した。 しかし、この能力にもかかわらず、個々のAIペアは、AI支援チームが達成したパフォーマンスレベルにはまだ達していない。 これらの調査結果は、ジェネレーティブなAIが従来のチーム機能を置き換えることができる一方で、より包括的なチーム構造へのAI統合は優れたメリットをもたらし、個々の取り組みを超えて全体的な効果を高めることを強調している。

Recent advancements in generative artificial intelligence (AI) have transformed collaborative work processes, yet the impact on team performance remains underexplored. Here we examine the role of generative AI in enhancing or replacing traditional team dynamics using a randomized controlled experiment with 435 participants across 122 teams. We show that teams augmented with generative AI significantly outperformed those relying solely on human collaboration across various performance measures. Interestingly, teams with multiple AIs did not exhibit further gains, indicating diminishing returns with increased AI integration. Our analysis suggests that centralized AI usage by a few team members is more effective than distributed engagement. Additionally, individual-AI pairs matched the performance of conventional teams, suggesting a reduced need for traditional team structures in some contexts. However, despite this capability, individual-AI pairs still fell short of the performance levels achieved by AI-assisted teams. These findings underscore that while generative AI can replace some traditional team functions, more comprehensively integrating AI within team structures provides superior benefits, enhancing overall effectiveness beyond individual efforts.
翻訳日:2024-05-29 19:47:39 公開日:2024-05-28
# SarcNet: 蛍光タグ付きHIPSC-CMにおいて、自動分析とスコアサルコメア組織のためのAIベースの新しいフレームワーク

SarcNet: A Novel AI-based Framework to Automatically Analyze and Score Sarcomere Organizations in Fluorescently Tagged hiPSC-CMs ( http://arxiv.org/abs/2405.17926v1 )

ライセンス: Link先を確認
Huyen Le, Khiet Dang, Tien Lai, Nhung Nguyen, Mai Tran, Hieu Pham, (参考訳) ヒト多能性幹細胞由来心筋細胞(hiPSC-CMs)におけるサルコメア構造の定量化は、心臓疾患の病態の解明、薬物スクリーニングの改善、再生医療の進展に不可欠である。 手動のアノテーションやフーリエ変換解析のような従来の手法は、労働集約的でエラーを起こし、高スループット能力がない。 本研究では,hPSC-CMのサルコメア構造を分化の開始から自動的に評価するために,細胞画像を活用し,セル特徴を統合する,新しいディープラーニングベースのフレームワークを提案する。 このフレームワークは、自動化された高スループット分析によって従来の手法の限界を克服し、一貫性のある信頼性のある結果を提供しながら、多様なサンプルにわたる複雑なサーコメパターンを正確に検出する。 提案するフレームワークには,線形層付加ResNet-18モジュールであるSarcNetが含まれている。 これは、アレン細胞科学研究所(AICS)が開発したGFPタグ付きα-アクチニン-2構造を用いて、オープンソースのHiPSC-CMs画像データセット上で訓練され、検証されている。 SarcNetは、専門的な評価と0.831のSpearman相関を達成し、線形回帰を用いた現在の最先端アプローチよりも優れた性能と0.075の改善を示す。 以上の結果から,18日目から32日目までの組織拡大のパターンが,専門家による評価と一致していることが示唆された。 画像から直接計算した量的特徴と深層学習モデルで学習した視覚的特徴を統合することにより、より包括的で正確な評価が可能となり、医療研究・治療開発におけるHIPSC-CMのさらなる有用性を高めることができる。

Quantifying sarcomere structure organization in human-induced pluripotent stem cell-derived cardiomyocytes (hiPSC-CMs) is crucial for understanding cardiac disease pathology, improving drug screening, and advancing regenerative medicine. Traditional methods, such as manual annotation and Fourier transform analysis, are labor-intensive, error-prone, and lack high-throughput capabilities. In this study, we present a novel deep learning-based framework that leverages cell images and integrates cell features to automatically evaluate the sarcomere structure of hiPSC-CMs from the onset of differentiation. This framework overcomes the limitations of traditional methods through automated, high-throughput analysis, providing consistent, reliable results while accurately detecting complex sarcomere patterns across diverse samples. The proposed framework contains the SarcNet, a linear layers-added ResNet-18 module, to output a continuous score ranging from one to five that captures the level of sarcomere structure organization. It is trained and validated on an open-source dataset of hiPSC-CMs images with the endogenously GFP-tagged alpha-actinin-2 structure developed by the Allen Institute for Cell Science (AICS). SarcNet achieves a Spearman correlation of 0.831 with expert evaluations, demonstrating superior performance and an improvement of 0.075 over the current state-of-the-art approach, which uses Linear Regression. Our results also show a consistent pattern of increasing organization from day 18 to day 32 of differentiation, aligning with expert evaluations. By integrating the quantitative features calculated directly from the images with the visual features learned during the deep learning model, our framework offers a more comprehensive and accurate assessment, thereby enhancing the further utility of hiPSC-CMs in medical research and therapy development.
翻訳日:2024-05-29 19:47:39 公開日:2024-05-28
# マルチモーダルモデルアーキテクチャの進化

The Evolution of Multimodal Model Architectures ( http://arxiv.org/abs/2405.17927v1 )

ライセンス: Link先を確認
Shakti N. Wadekar, Abhishek Chaurasia, Aman Chadha, Eugenio Culurciello, (参考訳) この研究は、現代マルチモーダルランドスケープにおける4つの一般的なマルチモーダルモデルアーキテクチャパターンを特定し、特徴付ける。 アーキテクチャタイプによるモデルを体系的に分類することで、マルチモーダルドメインにおける開発の監視が容易になる。 マルチモーダルアーキテクチャに関する一般的な情報を提示する最近の調査論文とは対照的に,本研究では,アーキテクチャの詳細を包括的に調査し,4つの特定のアーキテクチャタイプを特定する。 これらのタイプは、ディープニューラルネットワークモデルにマルチモーダル入力を統合するそれぞれの方法論によって区別される。 最初の2つのタイプ(A型とB型)はモデルの内部層内でマルチモーダル入力を深く融合させ、次の2つのタイプ(C型とD型)は入力段階での早期融合を促進する。 Type-Aは標準のクロスアテンションを採用しており、Type-Bは内部層内でのモダリティ融合にカスタム設計のレイヤを使用している。 一方、Type-Cはモダリティ固有のエンコーダを使用し、Type-Dはトークン化器を利用してモデルの入力段階でモダリティを処理する。 特定されたアーキテクチャタイプは、いかなるマルチモーダルモデル開発も監視するのに役立つ。 特に、Type-C と Type-D は、現在、あらゆる種類のマルチモーダルモデルの構築において好まれている。 非トークン化マルチモーダルモデルアーキテクチャによって区別されるType-Cは、入力トークン化技術を利用したType-Dの代替として実現可能なものとして登場している。 モデル選択を支援するために、この研究は、データと計算要求、アーキテクチャの複雑さ、スケーラビリティ、モダリティの追加の単純化、トレーニング目標、そして任意のマルチモーダル生成能力に基づいて、各アーキテクチャタイプの利点とデメリットを強調します。

This work uniquely identifies and characterizes four prevalent multimodal model architectural patterns in the contemporary multimodal landscape. Systematically categorizing models by architecture type facilitates monitoring of developments in the multimodal domain. Distinct from recent survey papers that present general information on multimodal architectures, this research conducts a comprehensive exploration of architectural details and identifies four specific architectural types. The types are distinguished by their respective methodologies for integrating multimodal inputs into the deep neural network model. The first two types (Type A and B) deeply fuses multimodal inputs within the internal layers of the model, whereas the following two types (Type C and D) facilitate early fusion at the input stage. Type-A employs standard cross-attention, whereas Type-B utilizes custom-designed layers for modality fusion within the internal layers. On the other hand, Type-C utilizes modality-specific encoders, while Type-D leverages tokenizers to process the modalities at the model's input stage. The identified architecture types aid the monitoring of any-to-any multimodal model development. Notably, Type-C and Type-D are currently favored in the construction of any-to-any multimodal models. Type-C, distinguished by its non-tokenizing multimodal model architecture, is emerging as a viable alternative to Type-D, which utilizes input-tokenizing techniques. To assist in model selection, this work highlights the advantages and disadvantages of each architecture type based on data and compute requirements, architecture complexity, scalability, simplification of adding modalities, training objectives, and any-to-any multimodal generation capability.
翻訳日:2024-05-29 19:47:39 公開日:2024-05-28
# 画像コピー検出のためのコンパクトディスクリプタによる自己教師付き蒸留

Relational Self-supervised Distillation with Compact Descriptors for Image Copy Detection ( http://arxiv.org/abs/2405.17928v1 )

ライセンス: Link先を確認
Juntae Kim, Sungwon Woo, Jongho Nang, (参考訳) 本稿では,著作権保護のためのオンライン共有プラットフォームにおける課題である画像コピー検出について述べる。 従来のアプローチは非常にうまく機能してきたが、ネットワークとディスクリプタの大規模化は依然として大きな欠点であり、実用的応用を複雑にしている。 本稿では,軽量ネットワークとコンパクトディスクリプタを用いて,競争性能を実現する手法を提案する。 大規模ネットワークから小さなネットワークへ知識を伝達するために,リレーショナル自己教師型蒸留を利用することで,少ない記述子サイズの軽量ネットワークのトレーニングを可能にする。 提案手法はRDCD(Relational Selfsupervised Distillation with Compact Descriptor)と呼ばれ,より小さな特徴空間におけるフレキシブルな表現のためのリレーショナル自己教師型蒸留(RSD)を導入し,高負(HN)損失によるコントラスト学習を適用し,次元崩壊を防止する。 提案手法の有効性をDEC2021, Copydays, NDECベンチマークを用いて実証し, コンパクトな記述子を用いた軽量ネットワークによる競合性能を実現する。 DISC2021ベンチマークでは、ResNet-50/EfficientNet-B0を教師と学生それぞれに使用し、ベースライン法と比較して64/128/256ディスクリプタサイズのマイクロ平均精度を5.0%/4.9%/5.9%改善した。

This paper addresses image copy detection, a task in online sharing platforms for copyright protection. While previous approaches have performed exceptionally well, the large size of their networks and descriptors remains a significant disadvantage, complicating their practical application. In this paper, we propose a novel method that achieves a competitive performance by using a lightweight network and compact descriptors. By utilizing relational self-supervised distillation to transfer knowledge from a large network to a small network, we enable the training of lightweight networks with a small descriptor size. Our approach, which we call Relational selfsupervised Distillation with Compact Descriptors (RDCD), introduces relational self-supervised distillation (RSD) for flexible representation in a smaller feature space and applies contrastive learning with a hard negative (HN) loss to prevent dimensional collapse. We demonstrate the effectiveness of our method using the DISC2021, Copydays, and NDEC benchmark datasets, with which our lightweight network with compact descriptors achieves a competitive performance. For the DISC2021 benchmark, ResNet-50/EfficientNet- B0 are used as a teacher and student respectively, the micro average precision improved by 5.0%/4.9%/5.9% for 64/128/256 descriptor sizes compared to the baseline method.
翻訳日:2024-05-29 19:47:39 公開日:2024-05-28
# バックドアと敵の攻撃に対する統一的ロバストネスを目指して

Towards Unified Robustness Against Both Backdoor and Adversarial Attacks ( http://arxiv.org/abs/2405.17929v1 )

ライセンス: Link先を確認
Zhenxing Niu, Yuyao Sun, Qiguang Miao, Rong Jin, Gang Hua, (参考訳) ディープニューラルネットワーク(DNN)は、バックドアと敵の攻撃の両方に対して脆弱であることが知られている。 文献では、これらの2種類の攻撃は、それぞれ訓練時間と推論時間に属するため、それぞれ異なる堅牢性問題として扱われ、別々に解決される。 しかし,本論文では,(1)モデルにバックドアを植え込むと,モデルの敵の例に大きく影響し,(2)感染モデルの場合,その敵の例はトリガー画像と類似した特徴を持つことを明らかにした。 これらの観測に基づいて、バックドアと敵の攻撃を同時に防御するために、新しいプログレッシブ統一防衛(PUD)アルゴリズムが提案されている。 特に,我々のPUDは,バックドアを共同で消去し,モデルの対向的堅牢性を高めるプログレッシブモデル浄化スキームを備えている。 初期の段階では、感染したモデルの敵の例を用いてバックドアを消去する。 バックドアが徐々に消されていくと、我々のモデル浄化は自然にステージに変わり、敵攻撃に対するモデルの堅牢性を高めることができる。 さらに、PUDアルゴリズムは、有毒な画像を効果的に識別できるので、最初の余分なデータセットが完全にクリーンにならないようにする。 その結果, バックドア攻撃と敵攻撃の関連性は, どのようなバックドア攻撃であっても, ユビキタスであることがわかった。 提案したPUDは、モデル修復法やデータフィルタリング法など、最先端のバックドアディフェンスよりも優れている。 さらに、最も先進的な敵防衛手法と競合する能力も備えている。

Deep Neural Networks (DNNs) are known to be vulnerable to both backdoor and adversarial attacks. In the literature, these two types of attacks are commonly treated as distinct robustness problems and solved separately, since they belong to training-time and inference-time attacks respectively. However, this paper revealed that there is an intriguing connection between them: (1) planting a backdoor into a model will significantly affect the model's adversarial examples; (2) for an infected model, its adversarial examples have similar features as the triggered images. Based on these observations, a novel Progressive Unified Defense (PUD) algorithm is proposed to defend against backdoor and adversarial attacks simultaneously. Specifically, our PUD has a progressive model purification scheme to jointly erase backdoors and enhance the model's adversarial robustness. At the early stage, the adversarial examples of infected models are utilized to erase backdoors. With the backdoor gradually erased, our model purification can naturally turn into a stage to boost the model's robustness against adversarial attacks. Besides, our PUD algorithm can effectively identify poisoned images, which allows the initial extra dataset not to be completely clean. Extensive experimental results show that, our discovered connection between backdoor and adversarial attacks is ubiquitous, no matter what type of backdoor attack. The proposed PUD outperforms the state-of-the-art backdoor defense, including the model repairing-based and data filtering-based methods. Besides, it also has the ability to compete with the most advanced adversarial defense methods.
翻訳日:2024-05-29 19:47:39 公開日:2024-05-28
# 償還・減税のためのオンラインマージング最適化手法

Online Merging Optimizers for Boosting Rewards and Mitigating Tax in Alignment ( http://arxiv.org/abs/2405.17931v1 )

ライセンス: Link先を確認
Keming Lu, Bowen Yu, Fei Huang, Yang Fan, Runji Lin, Chang Zhou, (参考訳) 大規模言語モデル(LLM)を人間中心の値に効果的に整合させると同時に、事前訓練と監視ファインチューニング(SFT)によって得られる能力の劣化を防止し、ヒューマンフィードバックからの強化学習(RLHF)において中心的な課題となる。 本稿では、まず、RLHFとSFTモデルパラメータを補間することにより、人間の好みと基本能力のトレードオフを調整し、アライメント報酬のコストでアライメント税を低減できることを示す。 そこで本研究では、RLHFにおける各最適化ステップにおけるRLポリシーとSFTモデルの統合を提案し、オンラインマージ最適化を導入して、トレーニングの方向性を継続的に調整する。 具体的には,SFTモデルと事前学習モデルとのパラメータ差に勾配をマージし,SFT最適化の方向における報酬の最大化に向けた勾配を効果的に操る。 最適化アルゴリズムはQwenやLLaMAなど,1.8Bから8Bまでのモデルサイズ,DPOやKTOなどのRLHFアルゴリズム,既存のモデルマージ手法など,さまざまなLLMファミリでうまく動作することを示す。 これはアライメント税を軽減しつつアライメント報酬を大幅に向上させ、14のベンチマークで全体のパフォーマンスを向上する。

Effectively aligning Large Language Models (LLMs) with human-centric values while preventing the degradation of abilities acquired through Pre-training and Supervised Fine-tuning (SFT) poses a central challenge in Reinforcement Learning from Human Feedback (RLHF). In this paper, we first discover that interpolating RLHF and SFT model parameters can adjust the trade-off between human preference and basic capabilities, thereby reducing the alignment tax at the cost of alignment reward. Inspired by this, we propose integrating the RL policy and SFT models at each optimization step in RLHF to continuously regulate the training direction, introducing the Online Merging Optimizer. Specifically, we merge gradients with the parameter differences between SFT and pretrained models, effectively steering the gradient towards maximizing rewards in the direction of SFT optimization. We demonstrate that our optimizer works well with different LLM families, such as Qwen and LLaMA, across various model sizes ranging from 1.8B to 8B, various RLHF algorithms like DPO and KTO, and existing model merging methods. It significantly enhances alignment reward while mitigating alignment tax, achieving higher overall performance across 14 benchmarks.
翻訳日:2024-05-29 19:47:39 公開日:2024-05-28
# スパースと適応最適化によるコミュニケーション効率のよいフェデレーション学習を目指して

Towards Communication-efficient Federated Learning via Sparse and Aligned Adaptive Optimization ( http://arxiv.org/abs/2405.17932v1 )

ライセンス: Link先を確認
Xiumei Deng, Jun Li, Kang Wei, Long Shi, Zeihui Xiong, Ming Ding, Wen Chen, Shi Jin, H. Vincent Poor, (参考訳) 適応モーメント推定(Adam)はSGD(Stochastic Gradient Descent)の変種である。 しかし、フェデレートされたAdam(FedAdam)アルゴリズムは、フェデレーションされたSGD(FedSGD)アルゴリズムに比べて、アップリンク通信オーバーヘッドが3倍に増加する。 本稿では,FedAdam-SSMと呼ばれる新しいスパースFedAdamアルゴリズムを提案し,ローカルモデルパラメータとモーメント推定値の更新を分散化し,そのスパース表現を集中サーバにアップロードする。 通信オーバーヘッドをさらに軽減するために、ローカルモデルパラメータとモーメント推定の更新は、共有スパースマスク(SSM)をスペース化プロセスに組み込んで、3つの分離スパースマスクを不要にする。 理論的には、FedAdam-SSMで訓練された局所モデルと集中型Adamで訓練された所望モデルとの相違点の上限を開発する。 我々は,FedAdam-SSMが訓練したモデルと集中型Adamの差異を最小化することにより,スペーシフィケーションエラーによる学習性能劣化を軽減するためにSSMを最適化する。 また,FedAdam-SSMの収束係数を凸関数と非凸関数の両方で表し,局所的エポック,学習速度,スパーシフィケーション比がFedAdam-SSMの収束率に与える影響について検討した。 実験結果から、FedAdam-SSMは収束率(FedAdamベースラインよりも1.1$\times$速い)とテスト精度(FedAdamベースラインより14.5\%高い)でベースラインを上回っていることが示された。

Adaptive moment estimation (Adam), as a Stochastic Gradient Descent (SGD) variant, has gained widespread popularity in federated learning (FL) due to its fast convergence. However, federated Adam (FedAdam) algorithms suffer from a threefold increase in uplink communication overhead compared to federated SGD (FedSGD) algorithms, which arises from the necessity to transmit both local model updates and first and second moment estimates from distributed devices to the centralized server for aggregation. Driven by this issue, we propose a novel sparse FedAdam algorithm called FedAdam-SSM, wherein distributed devices sparsify the updates of local model parameters and moment estimates and subsequently upload the sparse representations to the centralized server. To further reduce the communication overhead, the updates of local model parameters and moment estimates incorporate a shared sparse mask (SSM) into the sparsification process, eliminating the need for three separate sparse masks. Theoretically, we develop an upper bound on the divergence between the local model trained by FedAdam-SSM and the desired model trained by centralized Adam, which is related to sparsification error and imbalanced data distribution. By minimizing the divergence bound between the model trained by FedAdam-SSM and centralized Adam, we optimize the SSM to mitigate the learning performance degradation caused by sparsification error. Additionally, we provide convergence bounds for FedAdam-SSM in both convex and non-convex objective function settings, and investigate the impact of local epoch, learning rate and sparsification ratio on the convergence rate of FedAdam-SSM. Experimental results show that FedAdam-SSM outperforms baselines in terms of convergence rate (over 1.1$\times$ faster than the sparse FedAdam baselines) and test accuracy (over 14.5\% ahead of the quantized FedAdam baselines).
翻訳日:2024-05-29 19:47:39 公開日:2024-05-28
# ToonCrafter: 生成的なカルトーン補間

ToonCrafter: Generative Cartoon Interpolation ( http://arxiv.org/abs/2405.17933v1 )

ライセンス: Link先を確認
Jinbo Xing, Hanyuan Liu, Menghan Xia, Yong Zhang, Xintao Wang, Ying Shan, Tien-Tsin Wong, (参考訳) ToonCrafterは、従来の文通ベースの漫画ビデオ補間を超越し、生成補間への道を開く新しいアプローチである。 線形運動や非閉塞のような複雑な現象がないことを暗黙的に仮定する伝統的な手法は、漫画でよく見られるような、非直線的で大きな動きに苦しむことが多く、不可解あるいは補間結果さえも失敗する。 これらの制限を克服するために、我々は、生成フレームワーク内での漫画の補間によく合うように、ライブアクションビデオに先行して適応する可能性を探る。 ToonCrafterは、生成的マンガ補間に先立ってライブアクションビデオの動きを適用する際に直面する課題を効果的に解決する。 まず,漫画領域に先行するライブアクション映像をシームレスに適応し,ドメインギャップとコンテンツ漏洩を解消するトーン修正学習戦略を設計する。 次に,2次元参照型3Dデコーダを導入し,高度に圧縮された遅延空間による損失詳細を補償し,補間結果の細部保存を確実にする。 最後に,ユーザに対して補間結果をインタラクティブに制御するフレキシブルスケッチエンコーダを設計する。 実験結果から,提案手法は視覚的に説得力があり,より自然に作用するだけでなく,非閉塞性も効果的に扱えることが示された。 比較評価は、既存の競合相手に対する我々のアプローチの顕著な優位性を示している。

We introduce ToonCrafter, a novel approach that transcends traditional correspondence-based cartoon video interpolation, paving the way for generative interpolation. Traditional methods, that implicitly assume linear motion and the absence of complicated phenomena like dis-occlusion, often struggle with the exaggerated non-linear and large motions with occlusion commonly found in cartoons, resulting in implausible or even failed interpolation results. To overcome these limitations, we explore the potential of adapting live-action video priors to better suit cartoon interpolation within a generative framework. ToonCrafter effectively addresses the challenges faced when applying live-action video motion priors to generative cartoon interpolation. First, we design a toon rectification learning strategy that seamlessly adapts live-action video priors to the cartoon domain, resolving the domain gap and content leakage issues. Next, we introduce a dual-reference-based 3D decoder to compensate for lost details due to the highly compressed latent prior spaces, ensuring the preservation of fine details in interpolation results. Finally, we design a flexible sketch encoder that empowers users with interactive control over the interpolation results. Experimental results demonstrate that our proposed method not only produces visually convincing and more natural dynamics, but also effectively handles dis-occlusion. The comparative evaluation demonstrates the notable superiority of our approach over existing competitors.
翻訳日:2024-05-29 19:47:39 公開日:2024-05-28
# Proof of Quality: ブロックチェーン上の信頼できない生成AIモデル推論のためのコストレスパラダイム

Proof of Quality: A Costless Paradigm for Trustless Generative AI Model Inference on Blockchains ( http://arxiv.org/abs/2405.17934v1 )

ライセンス: Link先を確認
Zhenjie Zhang, Yuyang Rao, Hao Xiao, Xiaokui Xiao, Yin Yang, (参考訳) GPT-4やStable Diffusionのような生成AIモデルは、自然言語や画像タスクにおいて強力で破壊的な機能を示している。 しかしながら、これらのモデルを分散化された環境にデプロイすることは依然として困難である。 従来の集中型デプロイメントとは異なり、完全に分散化された環境で、特に信頼性のないブロックチェーンにおいて、AIモデルサービスの整合性を保証することは、極めて重要かつ難しい。 本稿では,ブロックチェーンアーキテクチャ上の任意の大規模生成モデルのデプロイを可能にするために,‘emph{proof of quality}(PoQ)’と呼ばれる新たな推論パラダイムを提案する。 ZKMLやOPMLのような推論手順の検証に基づく従来のアプローチとは異なり、私たちのPoQパラダイムはモデル推論の結果品質に重点を置いています。 当社の基盤となる品質評価モデルとして、軽量BERTベースのクロスエンコーダを使用することで、Llama 3やMixtralといった一般的なオープンソースモデルに適した、ブロックチェーン上の実世界のNLP生成モデル推論のための、最初の実用的なプロトコルであるPQMLを設計し、実装しています。 我々の分析は、我々のプロトコルが敵対的だが合理的な生態系の参加者に対して堅牢であることを示す。 品質評価を検証する際の計算オーバーヘッドは最小限であり、品質検証者はCPUのみを使用しても1秒以内に品質チェックを完了することができる。 予備シミュレーションの結果は、PoQコンセンサスが既存のどのスキームよりも1000倍速いミリ秒で生成されることを示している。

Generative AI models, such as GPT-4 and Stable Diffusion, have demonstrated powerful and disruptive capabilities in natural language and image tasks. However, deploying these models in decentralized environments remains challenging. Unlike traditional centralized deployment, systematically guaranteeing the integrity of AI model services in fully decentralized environments, particularly on trustless blockchains, is both crucial and difficult. In this paper, we present a new inference paradigm called \emph{proof of quality} (PoQ) to enable the deployment of arbitrarily large generative models on blockchain architecture. Unlike traditional approaches based on validating inference procedures, such as ZKML or OPML, our PoQ paradigm focuses on the outcome quality of model inference. Using lightweight BERT-based cross-encoders as our underlying quality evaluation model, we design and implement PQML, the first practical protocol for real-world NLP generative model inference on blockchains, tailored for popular open-source models such as Llama 3 and Mixtral. Our analysis demonstrates that our protocol is robust against adversarial but rational participants in ecosystems, where lazy or dishonest behavior results in fewer benefits compared to well-behaving participants. The computational overhead of validating the quality evaluation is minimal, allowing quality validators to complete the quality check within a second, even using only a CPU. Preliminary simulation results show that PoQ consensus is generated in milliseconds, 1,000 times faster than any existing scheme.
翻訳日:2024-05-29 19:47:39 公開日:2024-05-28
# 大規模言語モデルによるツール学習: 調査

Tool Learning with Large Language Models: A Survey ( http://arxiv.org/abs/2405.17935v1 )

ライセンス: Link先を確認
Changle Qu, Sunhao Dai, Xiaochi Wei, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Jun Xu, Ji-Rong Wen, (参考訳) 近年,大規模言語モデル (LLM) を用いたツール学習が,高度に複雑な問題に対処するLLMの能力向上のための有望なパラダイムとして出現している。 この分野での注目と急速な進歩にもかかわらず、既存の文献は断片化され、体系的な組織が欠如しており、新参者にとって障壁となっている。 このギャップは、LLMによるツール学習に関する既存の研究を包括的に調査する動機となります。 本研究では,ツール学習が有益である理由と,ツール学習の実施方法に焦点をあて,LLMによるツール学習の包括的理解を可能にした。 まず、ツール統合の利点と、ツール学習パラダイムの固有の利点の両方を6つの特定の側面から見直すことで、"なぜ"理由を探求します。 方法については,タスク計画,ツール選択,ツール呼び出し,応答生成という,ツール学習ワークフローにおける4つの重要な段階の分類に従って,文献を体系的にレビューする。 さらに,既存のベンチマークと評価手法の詳細な概要を示し,その関連性に応じて分類する。 最後に、現在の課題について議論し、将来的な方向性を概説し、研究者と工業開発者の両方に、この新興で有望な領域をさらに探求させることを目指している。

Recently, tool learning with large language models (LLMs) has emerged as a promising paradigm for augmenting the capabilities of LLMs to tackle highly complex problems. Despite growing attention and rapid advancements in this field, the existing literature remains fragmented and lacks systematic organization, posing barriers to entry for newcomers. This gap motivates us to conduct a comprehensive survey of existing works on tool learning with LLMs. In this survey, we focus on reviewing existing literature from the two primary aspects (1) why tool learning is beneficial and (2) how tool learning is implemented, enabling a comprehensive understanding of tool learning with LLMs. We first explore the "why" by reviewing both the benefits of tool integration and the inherent benefits of the tool learning paradigm from six specific aspects. In terms of "how", we systematically review the literature according to a taxonomy of four key stages in the tool learning workflow: task planning, tool selection, tool calling, and response generation. Additionally, we provide a detailed summary of existing benchmarks and evaluation methods, categorizing them according to their relevance to different stages. Finally, we discuss current challenges and outline potential future directions, aiming to inspire both researchers and industrial developers to further explore this emerging and promising area.
翻訳日:2024-05-29 19:37:52 公開日:2024-05-28
# RC-Mixup: 回帰タスクのためのノイズデータに対するデータ拡張戦略

RC-Mixup: A Data Augmentation Strategy against Noisy Data for Regression Tasks ( http://arxiv.org/abs/2405.17938v1 )

ライセンス: Link先を確認
Seong-Hyeon Hwang, Minsu Kim, Steven Euijong Whang, (参考訳) 本研究では,ノイズの多いデータの存在下での回帰作業におけるロバストなデータ拡張の問題について検討する。 データ拡張はディープラーニングモデルの一般化に不可欠だが、Mixupのような一般的な技術のほとんどは、主に画像データの分類タスクのために設計されている。 最近は、C-Mixupのような回帰タスクに特化したMixupテクニックもある。 サンプルのペアを線形に補間するMixupと比較して、C-Mixupはより選択的であり、より優れた回帰性能を得るためにラベル距離に基づいてサンプルを混合する。 しかし、C-Mixupはノイズとクリーンなサンプルを区別しないため、混合時に問題があり、最適以下のモデル性能につながる可能性がある。 同時に、堅牢なトレーニングは、複数のモデルのトレーニングを通じて、ノイズの多いデータに対して正確なモデルをトレーニングすることを目的として、非常に研究されている。 そこで本研究では,C-Mixupとマルチラウンドロバストなトレーニング手法を密接に統合したデータ拡張戦略RC-Mixupを提案する。 特に、C-Mixupはクリーンなデータを特定するための堅牢なトレーニングを改善し、ロバストなトレーニングはC-Mixupにより良いパフォーマンスを提供する。 RC-Mixupの重要な利点は、堅牢なモデルトレーニングアルゴリズム自体を変更する必要はなく、単にデータミキシングの恩恵を受けることができる、データ中心であることだ。 我々の実験では、RC-Mixupはノイズの多いデータベンチマークでC-Mixupと堅牢なトレーニングベースラインを著しく上回り、様々な堅牢なトレーニング手法と統合できることを示した。

We study the problem of robust data augmentation for regression tasks in the presence of noisy data. Data augmentation is essential for generalizing deep learning models, but most of the techniques like the popular Mixup are primarily designed for classification tasks on image data. Recently, there are also Mixup techniques that are specialized to regression tasks like C-Mixup. In comparison to Mixup, which takes linear interpolations of pairs of samples, C-Mixup is more selective in which samples to mix based on their label distances for better regression performance. However, C-Mixup does not distinguish noisy versus clean samples, which can be problematic when mixing and lead to suboptimal model performance. At the same time, robust training has been heavily studied where the goal is to train accurate models against noisy data through multiple rounds of model training. We thus propose our data augmentation strategy RC-Mixup, which tightly integrates C-Mixup with multi-round robust training methods for a synergistic effect. In particular, C-Mixup improves robust training in identifying clean data, while robust training provides cleaner data to C-Mixup for it to perform better. A key advantage of RC-Mixup is that it is data-centric where the robust model training algorithm itself does not need to be modified, but can simply benefit from data mixing. We show in our experiments that RC-Mixup significantly outperforms C-Mixup and robust training baselines on noisy data benchmarks and can be integrated with various robust training methods.
翻訳日:2024-05-29 19:37:52 公開日:2024-05-28
# CommonJSパッケージにおける肥大化依存性に関する実証的研究

An empirical study of bloated dependencies in CommonJS packages ( http://arxiv.org/abs/2405.17939v1 )

ライセンス: Link先を確認
Yuxin Liu, Deepika Tiwari, Cristian Bogdan, Benoit Baudry, (参考訳) JavaScriptパッケージは肥大化しやすいことで知られており、これはWebアプリケーションのパフォーマンスと保守性に大きな影響を与えている。 ウェブバンドルとツリーシェイキングは、機能レベルでクライアント側のアプリケーションでこの問題を軽減することができるが、サーバ側のアプリケーションの肥大を効果的に検出し、排除することはできない。 本稿では,サーバサイドアプリケーションで完全に使用されていない肥大化した依存関係について,実証的研究を行う。 本研究は,CommonJSモジュールシステムを用いて構築されたアプリケーションに焦点をあてる。 本稿では,ファイルアクセスを監視し,実行中にどの依存関係がアクセスされないかを決定するトレースベースの動的解析手法を提案する。 調査を行うため、92のCommonJSパッケージのオリジナルのデータセットを、96.9%、および50,661の依存関係でキュレートした。 私たちの動的分析は、すべてのパッケージの正しいビルドを維持しながら、これらの依存関係の50.7%を特定し、うまく除去します。 さらに、直接使用される依存関係の14.9%と間接的な依存関係の51.3%が肥大化していることがわかった。 重要な洞察は、package.jsonファイルのクリーニングによって直接肥大化した依存関係だけを取り除くことに集中することで、不要な肥大化した間接的な依存関係のかなりのシェアを取り除くことである。 現状の動的デブロ化技術と比較すると,ファイルアクセスに基づく解析では偽陽性が減り,肥大した依存関係の検出精度が向上した。 以上の結果から,パッケージマネージャにおける依存性のデブロ化に対するネイティブサポートは,依存関係維持の負担を大幅に軽減する可能性が示唆された。

JavaScript packages are notoriously prone to bloat, a factor that significantly impacts the performance and maintainability of web applications. While web bundlers and tree-shaking can mitigate this issue in client-side applications at the function level, they cannot effectively detect and remove bloat in server-side applications. In this paper, we conduct an empirical study to investigate the bloated dependencies that are entirely unused within server-side applications. Our study focuses on applications built with the widely used and highly dynamic CommonJS module system. We propose a trace-based dynamic analysis that monitors file access, to determine which dependencies are not accessed during runtime. To conduct our study, we curate an original dataset of 92 CommonJS packages with a median test coverage of 96.9% and a total of 50,661 dependencies. Our dynamic analysis identifies and successfully removes 50.7% of these dependencies while maintaining the correct build of all packages. Furthermore, we find that 14.9% of directly used dependencies and 51.3% of indirect dependencies are bloated. A key insight is that focusing on removing only the direct bloated dependencies by cleaning the package.json file, also removes a significant share of unnecessary bloated indirect dependencies. Compared to the state-of-the-art dynamic debloating technique, our analysis based on file accesses has fewer false positives, and demonstrates higher accuracy in detecting bloated dependencies. Our findings suggest that native support for dependency debloating in package managers could significantly alleviate the burden of maintaining dependencies.
翻訳日:2024-05-29 19:37:52 公開日:2024-05-28
# 外科手術における世界モデル

World Models for General Surgical Grasping ( http://arxiv.org/abs/2405.17940v1 )

ライセンス: Link先を確認
Hongbin Lin, Bin Li, Chun Wai Wong, Juan Rojas, Xiangyu Chu, Kwok Wai Samuel Au, (参考訳) 手術ロボットのためのインテリジェントな視覚制御システムは、システム障害に対して堅牢でありながら、未知の多様な物体に適応するべきである。 従来の手法は、主にポーズ推定と特徴追跡に依存するため、これらの要件を満たしていなかった。 本稿では,外科的把握のためのピクセルレベルのビジュモータポリシを学習し,汎用性とロバスト性を両立させる,世界モデルに基づく深部強化学習フレームワーク"Grasp Anything for Surgery"(GAS)を提案する。 特に,厳密なリンク対象の未正確な領域の深度画素の値と不確かさを,被写体の大きさの実証値に基づいて推定する手法を提案し,マスク領域を動的にズームすることで,タスク対象の深度画像とマスク画像の両方を単一のコンパクトな3チャンネル画像(サイズ:64x64x3)に符号化し,情報損失を最小限に抑える。 学習したコントローラの有効性はシミュレーションや実際のロボットで広く評価される。 私たちの学習した自警団の政策は以下のとおりである。 一 現実世界の非構造的な手術環境において、5種類の目標把握物及びロボット握手を含む未確認物 二 知覚及び制御の障害 複雑な手術シーン(平均成功率69%)における実際のロボット上の異なるロボットグリップを用いて、多様な手術対象を把握できる統一的な手術制御システムを実現するための最初の試みである。 また,グリップ対象物体がグリップから落下した後に,背景変動,目標乱れ,カメラポーズ変動,運動制御誤差,画像ノイズ,再彫刻を含む6つの条件に対して,大きなロバスト性を示す。 ビデオとコードは、プロジェクトのページで見ることができる。

Intelligent vision control systems for surgical robots should adapt to unknown and diverse objects while being robust to system disturbances. Previous methods did not meet these requirements due to mainly relying on pose estimation and feature tracking. We propose a world-model-based deep reinforcement learning framework "Grasp Anything for Surgery" (GAS), that learns a pixel-level visuomotor policy for surgical grasping, enhancing both generality and robustness. In particular, a novel method is proposed to estimate the values and uncertainties of depth pixels for a rigid-link object's inaccurate region based on the empirical prior of the object's size; both depth and mask images of task objects are encoded to a single compact 3-channel image (size: 64x64x3) by dynamically zooming in the mask regions, minimizing the information loss. The learned controller's effectiveness is extensively evaluated in simulation and in a real robot. Our learned visuomotor policy handles: i) unseen objects, including 5 types of target grasping objects and a robot gripper, in unstructured real-world surgery environments, and ii) disturbances in perception and control. Note that we are the first work to achieve a unified surgical control system that grasps diverse surgical objects using different robot grippers on real robots in complex surgery scenes (average success rate: 69%). Our system also demonstrates significant robustness across 6 conditions including background variation, target disturbance, camera pose variation, kinematic control error, image noise, and re-grasping after the gripped target object drops from the gripper. Videos and codes can be found on our project page: https://linhongbin.github.io/gas/.
翻訳日:2024-05-29 19:37:52 公開日:2024-05-28
# プログラム可能な非線形量子フォトニック回路

Programmable Nonlinear Quantum Photonic Circuits ( http://arxiv.org/abs/2405.17941v1 )

ライセンス: Link先を確認
Kasper H. Nielsen, Ying Wang, Edward Deacon, Patrik I. Sund, Zhe Liu, Sven Scholz, Andreas D. Wieck, Arne Ludwig, Leonardo Midolo, Anders S. Sørensen, Stefano Paesani, Peter Lodahl, (参考訳) 単一光子間の相互作用の欠如は、量子光学回路における直接的な非線形動作を禁止し、フォトニック量子技術における中心的な障害を表している。 ここでは、線形および直接非線形操作の両方を単光子レベルで高精度にプログラムできる多モード非線形フォトニック回路を実証する。 決定論的非線形相互作用は、時間線形光干渉計内の個々の光子間の相互作用を媒介するナノフォトニック導波路に埋め込まれた可変量子ドットによって実現される。 非線形フォトニック回路をリプログラミングし、特に非調和分子動力学の量子シミュレーションにおいて強い非線形性を必要とするプロトコルを実装する能力を示す。

The lack of interactions between single photons prohibits direct nonlinear operations in quantum optical circuits, representing a central obstacle in photonic quantum technologies. Here, we demonstrate multi-mode nonlinear photonic circuits where both linear and direct nonlinear operations can be programmed with high precision at the single-photon level. Deterministic nonlinear interaction is realized with a tunable quantum dot embedded in a nanophotonic waveguide mediating interactions between individual photons within a temporal linear optical interferometer. We demonstrate the capability to reprogram the nonlinear photonic circuits and implement protocols where strong nonlinearities are required, in particular for quantum simulation of anharmonic molecular dynamics, thereby showcasing the new key functionalities enabled by our technology.
翻訳日:2024-05-29 19:37:52 公開日:2024-05-28
# 移動可能なマルチモーダル知覚のための自己教師付き事前学習

Self-supervised Pre-training for Transferable Multi-modal Perception ( http://arxiv.org/abs/2405.17942v1 )

ライセンス: Link先を確認
Xiaohao Xu, Tianyi Zhang, Jinrong Yang, Matthew Johnson-Roberson, Xiaonan Huang, (参考訳) 自律運転においては、複数のセンサからの入力を利用するマルチモーダル認識モデルは、劣化した環境において強い堅牢性を示す。 しかし、これらのモデルは、異なるモダリティやタスク間で学習した表現を効率的かつ効果的に転送する上で、課題に直面している。 本稿では,移動可能なマルチモーダル表現学習のための自己教師付き事前学習パラダイムであるNeRF-Supervised Masked Auto Encoder (NS-MAE)を提案する。 NS-MAEは、効率的かつ高性能な微調整のための事前訓練されたモデル初期化を提供するように設計されている。 提案手法は,ニューラルレイディアンスフィールド(NeRF)におけるマスク付きマルチモーダル再構成を用いて,複数のモーダルの欠落や破損した入力データを再構成するモデルを訓練する。 具体的には、劣化したLiDAR点雲と画像からマルチモーダル埋め込みを抽出し、特定のビュー方向と位置で条件付けする。 これらの埋め込みは、ニューラルレンダリング技術を用いて投影されたマルチモーダル特徴写像に描画される。 元のマルチモーダル信号はレンダリングされた特徴マップの再構成ターゲットとして機能し、自己教師付き表現学習を容易にする。 広範囲な実験により、多モードおよび単一モード知覚モデル間のNS-MAE表現の有望な伝達性を示す。 この伝達性は、3Dオブジェクト検出やBEVマップセグメンテーションなどの下流の様々な3次元知覚タスクにおいて、異なる量の微調整ラベル付きデータを用いて評価される。 私たちのコードはコミュニティをサポートするためにリリースされます。

In autonomous driving, multi-modal perception models leveraging inputs from multiple sensors exhibit strong robustness in degraded environments. However, these models face challenges in efficiently and effectively transferring learned representations across different modalities and tasks. This paper presents NeRF-Supervised Masked Auto Encoder (NS-MAE), a self-supervised pre-training paradigm for transferable multi-modal representation learning. NS-MAE is designed to provide pre-trained model initializations for efficient and high-performance fine-tuning. Our approach uses masked multi-modal reconstruction in neural radiance fields (NeRF), training the model to reconstruct missing or corrupted input data across multiple modalities. Specifically, multi-modal embeddings are extracted from corrupted LiDAR point clouds and images, conditioned on specific view directions and locations. These embeddings are then rendered into projected multi-modal feature maps using neural rendering techniques. The original multi-modal signals serve as reconstruction targets for the rendered feature maps, facilitating self-supervised representation learning. Extensive experiments demonstrate the promising transferability of NS-MAE representations across diverse multi-modal and single-modal perception models. This transferability is evaluated on various 3D perception downstream tasks, such as 3D object detection and BEV map segmentation, using different amounts of fine-tuning labeled data. Our code will be released to support the community.
翻訳日:2024-05-29 19:37:52 公開日:2024-05-28
# Ethereumにおける最大抽出値のアービタージュとサンドウィッチ攻撃の再現

Remeasuring the Arbitrage and Sandwich Attacks of Maximal Extractable Value in Ethereum ( http://arxiv.org/abs/2405.17944v1 )

ライセンス: Link先を確認
Tianyang Chi, Ningyu He, Xiaohui Hu, Haoyu Wang, (参考訳) 最大抽出可能な価値(MEV)は、ブロックチェーンエコシステムの繁栄を促進する。 ブロック内でトランザクションを戦略的に含んだり、排除したり、あるいはリオーダーすることで、ブロックプロデューサ/バリケータは付加的な価値を抽出し、それによってブロックチェーンプラットフォーム全体の分散化を維持するインセンティブを得ることができる。 2022年8月のEthereumの合併以前、約675億ドルがMEVで抽出された。 その重要性にもかかわらず、MEVの現在の測定作業にはいくつかの制限がある。 第一に、現在の作業は、非常に限られた数のDAppのトランザクションのみに焦点を当てています。 第二に、現在の手法は一定のヒューリスティックなルールベースのパターンに大きく依存しており、偽陰性/肯定的な結果をもたらす。 第3に、EthereumのThe Mergeのような継続的に導入された機能によって、観察と結論はある程度時代遅れになっている。 これらの課題に対処するため、本研究では、まず、調停トランザクションとサンドイッチアタックを識別する2つの堅牢な手法を提案する。 そして、それらを最大規模のデータセットに適用し、関連するMEVトランザクションをフィルタリングする。 特定された結果に基づいて、Ethereum MEVエコシステムの全体像、プライベートトランザクションアーキテクチャがもたらす影響、バックラン機構の採用を特徴付けました。 私たちの研究は将来のMEV関連の研究に光を当てるでしょう。

Maximal Extractable Value (MEV) drives the prosperity of the blockchain ecosystem. By strategically including, excluding, or reordering transactions within blocks, block producers/validators can extract additional value, which in turn incentivizes them to keep the decentralization of the whole blockchain platform. Before The Merge of Ethereum in Sep. 2022, around \$675M was extracted in terms of MEV. Despite its importance, current measurement works on MEV suffer some limitations. First, current works only focus on transactions of a very limited number of DApps. Second, current methods heavily rely on fixed heuristic rule-based patterns, leading to false negative/positive. Third, the observations and conclusions are outdated to some extent due to the continuously introduced features, like The Merge in Ethereum. To address these challenges, in this work, we first propose two robust methods to identify arbitrage transactions and sandwich attacks, respectively. Then, we apply them to the largest-ever dataset to filter out related MEV transactions. Based on the identified results, we have characterized the overall landscape of the Ethereum MEV ecosystem, the impact the private transaction architectures bring, and the adoption of back-running mechanism. Our research will shed light on future MEV-related work.
翻訳日:2024-05-29 19:37:52 公開日:2024-05-28
# 雑音量子ビットの通信パワー

The communication power of a noisy qubit ( http://arxiv.org/abs/2405.17946v1 )

ライセンス: Link先を確認
Saptarshi Roy, Tamal Guha, Sutapa Saha, Giulio Chiribella, (参考訳) 量子力学の基本的な性質は、1つの量子ビットが少なくとも1ビットの古典的な情報を運ぶことができることである。 量子通信チャネルの重要なクラスでは、この制限は通信開始前に送信側と受信側が絡み合った粒子を共有しても有効であり、全ての絡み合う通信チャネルでは、古典的なメッセージが確実に通信できるレートは、量子絡み合いの助けがあっても送信されたキュービット当たり1ビットを超えない。 しかし、これは、古典的なメッセージを伝えるために、ノイズの多い絡み合うクビットチャネルをノイズの多いビットチャネルに置き換えることができるということなのだろうか? ここでは、負の質問に答える。 プレイヤー(送信者)が、他のプレイヤー(受信者)が4つの可能なボックスのうちの1つに隠された賞品を見つけるのを補助し、残りの3つのボックスのうちの1つに隠された爆弾を避けるゲームを導入する。 このゲームでは、プレイヤーがノイズの多いビットチャネルを介して通信した場合、確実に爆弾を回避できない。 対照的に、プレイヤーは爆弾を決定論的に回避し、ユニバーサルNOTチャネルとして知られる絡み合うクビットチャネルを介して通信した場合、1/3の確率で賞を見つけることができる。 量子戦略の特徴は、ノイズのないビットチャネルでシミュレートできるが、このシミュレーションでは、共有ランダム性(共有ランダム性なしでは、3レベル古典システムのノイズレス伝送でさえ単一ノイズキュービットの伝送と一致しない)によって伝送を補助する必要がある。

A fundamental property of quantum mechanics is that a single qubit can carry at most 1 bit of classical information. For an important class of quantum communication channels, known as entanglement-breaking, this limitation remains valid even if the sender and receiver share entangled particles before the start of the communication: for every entanglement-breaking channel, the rate at which classical messages can be reliably communicated cannot exceed 1 bit per transmitted qubit even with the assistance of quantum entanglement. But does this mean that, for the purpose of communicating classical messages, a noisy entanglement-breaking qubit channel can be replaced by a noisy bit channel? Here we answer the question in the negative. We introduce a game where a player (the sender) assists another player (the receiver) in finding a prize hidden into one of four possible boxes, while avoiding a bomb hidden in one of the three remaining boxes. In this game, the bomb cannot be avoided with certainty if the players communicate through a noisy bit channel. In contrast, the players can deterministically avoid the bomb and find the prize with a guaranteed 1/3 probability if they communicate through an entanglement-breaking qubit channel known as the universal NOT channel. We show that the features of the quantum strategy can be simulated with a noiseless bit channel, but this simulation requires the transmission to be assisted by shared randomness: without shared randomness, even the noiseless transmission of a three-level classical system cannot match the transmission of a single noisy qubit.
翻訳日:2024-05-29 19:37:52 公開日:2024-05-28
# レーザー駆動半導体からの真空紫外パルスを用いたアト秒分光

Attosecond spectroscopy using vacuum-ultraviolet pulses emitted from laser-driven semiconductors ( http://arxiv.org/abs/2405.17949v1 )

ライセンス: Link先を確認
A. Nayak, D. Rajak, B. Farkas, C. Granados, P. Stammer, J. Rivera-Dean, Th. Lamprou, K. Varju, Y. Mairesse, M. F. Ciappina, M. Lewenstein, P. Tzallas, (参考訳) 強いレーザー駆動型半導体結晶は、高調波発生過程を通じて多体物理学や超高速光エレクトロニクスの研究にかなりの利点をもたらす。 この現象は強いレーザー場の存在下で固体の動力学の研究に使われてきたが、アト秒光源としての利用の可能性はまだ明らかになっていない。 ここでは,中赤外パルスとZnO結晶との相互作用によって発生する高調波が,アルカリ金属の超高速電離ダイナミクスを追尾するために用いられるアト秒パルスの生成につながることを実証する。 レーザー場による原子の瞬時偏光から生じる光電子収率の強い振動を観察する。 発振の位相はイオン化高調波のアト秒同期を符号化し、アト秒パルスメトロジーに使用される。 この光源は、アト秒分光のための新しいスペクトル窓を開き、中性原子、分子、固体を含む低いイオン化ポテンシャルを持つ系の研究の道を開く。 さらに, 可視光VUVスペクトル領域において, 非古典的で大規模に絡み合った光状態を生成するための光源の重要性を強調した。

Strongly laser-driven semiconductor crystals offer substantial advantages for the study of many-body physics and ultrafast optoelectronics via the high harmonic generation process. While this phenomenon has been employed to investigate the dynamics of solids in the presence of strong laser fields, its potential to be utilized as an attosecond light source has remained unexploited. Here, we demonstrate that the high harmonics generated through the interaction of mid--infrared pulses with a ZnO crystal leads to the production of attosecond pulses, that can be used to trace the ultrafast ionization dynamics of alkali metals. In a cross--correlation approach, we photoionize Cesium atoms with the vacuum-ultraviolet (VUV) high-harmonics in the presence of a mid-infrared laser field. We observe strong oscillations of the photoelectron yield originating from the instantaneous polarization of the atoms by the laser field. The phase of the oscillations encodes the attosecond synchronization of the ionizing high-harmonics and is used for attosecond pulse metrology. This light source opens a new spectral window for attosecond spectroscopy, paving the way for studies of systems with low ionization potentials including neutral atoms, molecules and solids. Additionally, our results highlight the significance of the source for generating non--classical massively entangled light states in the visible--VUV spectral region.
翻訳日:2024-05-29 19:37:52 公開日:2024-05-28
# 組合せ問題に対するセルフガイド探索

Self-Guiding Exploration for Combinatorial Problems ( http://arxiv.org/abs/2405.17950v1 )

ライセンス: Link先を確認
Zangir Iklassov, Yali Du, Farkhad Akimov, Martin Takac, (参考訳) 大規模言語モデル(LLM)は、算術、コモンセンス、シンボリック推論を含む様々な領域にわたる推論タスクに対処する上で重要なものとなっている。 彼らは、複雑なタスクを効果的にナビゲートし解決するために、Exploration-of-Thought、Decomposition、Refinementなどのプロンプト技術を利用する。 これらの進歩にもかかわらず、NP-hardnessとロジスティクスと資源管理における重要な役割で知られるコンビニアル・イシュー(CP)へのLLMの適用はいまだに未調査である。 このギャップに対処するために,我々は,CP の解法性能を高めるために設計された,SGE (Self-Guiding Exploration) という新しいプロンプト戦略を導入する。 SGEは自律的に動作し、CPタスクごとに複数の思考軌道を生成する。 その後、これらの軌道を動作可能なサブタスクに分解し、順次実行し、結果を洗練して最適な結果を保証する。 本研究では, LLMを多種多様なCPに適用し, SGEが既存のCP最適化戦略を27.84%以上上回っていることを示す。 さらに、SGEは他の推論タスク(算術的、常識的、記号的)において、既存の最高の結果よりも2.46%高い精度を達成する。

Large Language Models (LLMs) have become pivotal in addressing reasoning tasks across diverse domains, including arithmetic, commonsense, and symbolic reasoning. They utilize prompting techniques such as Exploration-of-Thought, Decomposition, and Refinement to effectively navigate and solve intricate tasks. Despite these advancements, the application of LLMs to Combinatorial Problems (CPs), known for their NP-hardness and critical roles in logistics and resource management remains underexplored. To address this gap, we introduce a novel prompting strategy: Self-Guiding Exploration (SGE), designed to enhance the performance of solving CPs. SGE operates autonomously, generating multiple thought trajectories for each CP task. It then breaks these trajectories down into actionable subtasks, executes them sequentially, and refines the results to ensure optimal outcomes. We present our research as the first to apply LLMs to a broad range of CPs and demonstrate that SGE outperforms existing prompting strategies by over 27.84% in CP optimization performance. Additionally, SGE achieves a 2.46% higher accuracy over the best existing results in other reasoning tasks (arithmetic, commonsense, and symbolic).
翻訳日:2024-05-29 19:37:52 公開日:2024-05-28
# トークンマージによる変圧器および状態空間モデルの効率的な時系列処理

Efficient Time Series Processing for Transformers and State-Space Models through Token Merging ( http://arxiv.org/abs/2405.17951v1 )

ライセンス: Link先を確認
Leon Götz, Marcel Kollovieh, Stephan Günnemann, Leo Schwinn, (参考訳) トランスフォーマーアーキテクチャは時系列処理において有望な結果を示している。 しかし、近年のサブクワッドアテンション機構や状態空間モデルの発展にもかかわらず、非常に長いシーケンスの処理は依然として重要な計算要求を課している。 複数のトークンを線形結合として計算した1つのトークンに置き換えることによるトークンのマージは、精度を保ちながら視覚トランスフォーマーアーキテクチャのスループットを大幅に向上させることを示した。 本研究では,コンピュータビジョンを超えて,時系列変換器と状態空間モデルの両方の時系列解析において,トークンマージに関する最初の研究を行う。 トークンマージを長いシーケンスに効果的にスケールするために,局所的なマージアルゴリズムを導入する。局所的な領域内でトークンを選択的に組み合わせ,近傍サイズに基づいて計算複雑性を線形から二次に調整する。 我々の総合的な経験的評価は、トークンのマージが、様々なモデルやデータセットの精度に最小限の影響を伴って、かなりの計算上の利点をもたらすことを示している。 最近提案されたクロノス基礎モデルでは, わずかな精度劣化のみを伴い, 5400%の加速を実現している。

Transformer architectures have shown promising results in time series processing. However, despite recent advances in subquadratic attention mechanisms or state-space models, processing very long sequences still imposes significant computational requirements. Token merging, which involves replacing multiple tokens with a single one calculated as their linear combination, has shown to considerably improve the throughput of vision transformer architectures while maintaining accuracy. In this work, we go beyond computer vision and perform the first investigations of token merging in time series analysis on both time series transformers and state-space models. To effectively scale token merging to long sequences, we introduce local merging, a domain-specific token merging algorithm that selectively combines tokens within a local neighborhood, adjusting the computational complexity from linear to quadratic based on the neighborhood size. Our comprehensive empirical evaluation demonstrates that token merging offers substantial computational benefits with minimal impact on accuracy across various models and datasets. On the recently proposed Chronos foundation model, we achieve accelerations up to 5400% with only minor accuracy degradations.
翻訳日:2024-05-29 19:37:52 公開日:2024-05-28
# 間接データからの効率的な事前校正

Efficient Prior Calibration From Indirect Data ( http://arxiv.org/abs/2405.17955v1 )

ライセンス: Link先を確認
O. Deniz Akyildiz, Mark Girolami, Andrew M. Stuart, Arnaud Vadeboncoeur, (参考訳) ベイズ反転は、科学と工学の多くの応用から生じる問題における不確実性の定量化の中心である。 アプローチを定式化するには、未知のパラメータを解空間の要素、しばしば微分方程式の解空間にマッピングするフォワードモデル、解空間の要素をデータ空間にマッピングするオブザーバオペレータ、ノイズがどのように観測を汚染するかを記述するノイズモデル、データを取得する前に未知のパラメータに関する知識を記述する先行モデル、の4つの要素が必要である。 本稿では,データから先行モデルを学習すること,特にノイズ観測プロセスを通じて得られた間接データの多元的実現から先行モデルを学習することに関心がある。 前者は生成モデルを用いて潜在空間におけるガウスのプッシュフォワードとして表現され、プッシュフォワード写像は適切な損失関数を最小化することによって学習される。 経験的近似の下でよく定義される計量は、プッシュフォワード写像の損失関数を定義して実装可能な方法論を作成するために用いられる。 さらに、フォワードモデルの効率的な残差ベースのニューラル演算子近似を提案し、この問題の双レベル最適化式を用いてプッシュフォワードマップと同時に学習できることを示し、このニューラル演算子近似を用いることで、特に観測プロセスが高価、非滑らか、あるいは未知の場合には、間接データからの事前学習をより効率的にすることが可能になる。 これらの考え方は、ピエゾメトリックヘッド測定から透水性を見出すダーシー流逆問題(Darcy flow inverse problem)で示される。

Bayesian inversion is central to the quantification of uncertainty within problems arising from numerous applications in science and engineering. To formulate the approach, four ingredients are required: a forward model mapping the unknown parameter to an element of a solution space, often the solution space for a differential equation; an observation operator mapping an element of the solution space to the data space; a noise model describing how noise pollutes the observations; and a prior model describing knowledge about the unknown parameter before the data is acquired. This paper is concerned with learning the prior model from data; in particular, learning the prior from multiple realizations of indirect data obtained through the noisy observation process. The prior is represented, using a generative model, as the pushforward of a Gaussian in a latent space; the pushforward map is learned by minimizing an appropriate loss function. A metric that is well-defined under empirical approximation is used to define the loss function for the pushforward map to make an implementable methodology. Furthermore, an efficient residual-based neural operator approximation of the forward model is proposed and it is shown that this may be learned concurrently with the pushforward map, using a bilevel optimization formulation of the problem; this use of neural operator approximation has the potential to make prior learning from indirect data more computationally efficient, especially when the observation process is expensive, non-smooth or not known. The ideas are illustrated with the Darcy flow inverse problem of finding permeability from piezometric head measurements.
翻訳日:2024-05-29 19:37:52 公開日:2024-05-28
# ハイブリッドな選好最適化:補助的目的による直接選好最適化の強化

Hybrid Preference Optimization: Augmenting Direct Preference Optimization with Auxiliary Objectives ( http://arxiv.org/abs/2405.17956v1 )

ライセンス: Link先を確認
Anirudhan Badrinath, Prabhat Agarwal, Jiajing Xu, (参考訳) 大規模言語モデル(LLM)の整合性を確保するため、先行研究は人間フィードバック(RLHF)や直接選好最適化(DPO)による強化学習を活用している。 DPOは、最大推定に基づいてより単純なフレームワークを提供するが、LLM設計者の好みに応じて、言語モデルをチューニングし、非微分可能および非バイナリ目的を容易に最大化する能力に妥協する(例えば、より単純な言語を使用したり、特定の有害なコンテンツを最小化するなど)。 これらは、ユーザの好みと一致せず、バイナリの好みデータによって引き付けられることもない。 本稿では,DPOの簡易性と性能をRLの一般化性に活かすために,DPOとRLHFのハイブリッドアプローチを提案する。 DPOの暗黙的な報酬分解に対する単純な拡張により、LLM をチューニングすることで、オフライン RL を用いて任意の補助報酬の集合を最大化することができる。 提案手法であるHybrid Preference Optimization (HPO) は, ユーザの嗜好と補助的設計目的の両方に効果的に一般化できると同時に, 様々な課題のあるベンチマークやモデルサイズでアライメント性能を保っていることを示す。

For aligning large language models (LLMs), prior work has leveraged reinforcement learning via human feedback (RLHF) or variations of direct preference optimization (DPO). While DPO offers a simpler framework based on maximum likelihood estimation, it compromises on the ability to tune language models to easily maximize non-differentiable and non-binary objectives according to the LLM designer's preferences (e.g., using simpler language or minimizing specific kinds of harmful content). These may neither align with user preferences nor even be able to be captured tractably by binary preference data. To leverage the simplicity and performance of DPO with the generalizability of RL, we propose a hybrid approach between DPO and RLHF. With a simple augmentation to the implicit reward decomposition of DPO, we allow for tuning LLMs to maximize a set of arbitrary auxiliary rewards using offline RL. The proposed method, Hybrid Preference Optimization (HPO), shows the ability to effectively generalize to both user preferences and auxiliary designer objectives, while preserving alignment performance across a range of challenging benchmarks and model sizes.
翻訳日:2024-05-29 19:37:52 公開日:2024-05-28
# 進化追従型コントラスト学習と無関係語排除による鎖フリーファッションの動的トピックのモデル化

Modeling Dynamic Topics in Chain-Free Fashion by Evolution-Tracking Contrastive Learning and Unassociated Word Exclusion ( http://arxiv.org/abs/2405.17957v1 )

ライセンス: Link先を確認
Xiaobao Wu, Xinshuai Dong, Liangming Pan, Thong Nguyen, Anh Tuan Luu, (参考訳) 動的トピックモデルは、トレンド分析や意見マイニングといった様々な応用を導出したシーケンシャルドキュメントにおけるトピックの進化をトラックする。 しかし、既存のモデルは反復的なトピックと無関係なトピックの問題に悩まされ、進化を明らかにすることができず、さらなる応用を妨げる。 これらの課題に対処するため、既存の作業において単にトピックを連鎖するという伝統を破り、新しいニューラルな「モデルフルネーム」を提案する。 本稿では,動的トピック間の類似性関係を構築するための,進化追跡型コントラスト学習手法を提案する。 これはトピックの進化を追跡するだけでなく、トピックの多様性も維持し、反復的なトピックの問題を軽減する。 さらに,無関係な話題を避けるために,発見された話題から無関係な単語を一貫して排除する非関連な単語排除手法を提案する。 大規模な実験により、我々のモデルは最先端のベースラインを著しく上回り、高品質なトピックによるトピックの進化を追跡し、下流タスクのパフォーマンスを向上し、進化強度のハイパーパラメータに頑健なままであることを示した。 私たちのコードはhttps://github.com/bobxwu/CFDTMで利用可能です。

Dynamic topic models track the evolution of topics in sequential documents, which have derived various applications like trend analysis and opinion mining. However, existing models suffer from repetitive topic and unassociated topic issues, failing to reveal the evolution and hindering further applications. To address these issues, we break the tradition of simply chaining topics in existing work and propose a novel neural \modelfullname. We introduce a new evolution-tracking contrastive learning method that builds the similarity relations among dynamic topics. This not only tracks topic evolution but also maintains topic diversity, mitigating the repetitive topic issue. To avoid unassociated topics, we further present an unassociated word exclusion method that consistently excludes unassociated words from discovered topics. Extensive experiments demonstrate our model significantly outperforms state-of-the-art baselines, tracking topic evolution with high-quality topics, showing better performance on downstream tasks, and remaining robust to the hyperparameter for evolution intensities. Our code is available at https://github.com/bobxwu/CFDTM .
翻訳日:2024-05-29 19:37:52 公開日:2024-05-28
# FreeSplat: 室内シーンのフリービュー合成に向けた一般化可能な3Dガウススプレイティング

FreeSplat: Generalizable 3D Gaussian Splatting Towards Free-View Synthesis of Indoor Scenes ( http://arxiv.org/abs/2405.17958v1 )

ライセンス: Link先を確認
Yunsong Wang, Tianxin Huang, Hanlin Chen, Gim Hee Lee, (参考訳) 一般化能力を備えた3Dガウススプラッティングの活用は魅力的である。 しかし、既存の一般化可能な3次元ガウス散乱法は、背骨が重いため立体像間の狭い距離の補間に限られており、3次元ガウス像を正確に局所化し、広い視野で自由視点合成をサポートする能力が欠如している。 本稿では,長周期入力から自由視点合成まで幾何学的に一貫した3次元シーンを再構築可能なフレームワークFreeSplatを提案する。 次に,Pixel-wise Triplet Fusionを提案し,重なり合うビュー領域における3次元ガウスの冗長性を排除し,複数のビューで観察される特徴を集約する。 さらに,ビュー数に関係なく,広いビュー範囲にわたる堅牢なビュー合成を実現するための,シンプルで効果的なフリービュートレーニング戦略を提案する。 実験により,新鮮視色マップの品質と深度マップの精度を異なる入力ビューで比較した。 また,FreeSplatはより効率的に推論を行い,冗長なガウスを効果的に削減できることを示す。

Empowering 3D Gaussian Splatting with generalization ability is appealing. However, existing generalizable 3D Gaussian Splatting methods are largely confined to narrow-range interpolation between stereo images due to their heavy backbones, thus lacking the ability to accurately localize 3D Gaussian and support free-view synthesis across wide view range. In this paper, we present a novel framework FreeSplat that is capable of reconstructing geometrically consistent 3D scenes from long sequence input towards free-view synthesis.Specifically, we firstly introduce Low-cost Cross-View Aggregation achieved by constructing adaptive cost volumes among nearby views and aggregating features using a multi-scale structure. Subsequently, we present the Pixel-wise Triplet Fusion to eliminate redundancy of 3D Gaussians in overlapping view regions and to aggregate features observed across multiple views. Additionally, we propose a simple but effective free-view training strategy that ensures robust view synthesis across broader view range regardless of the number of views. Our empirical results demonstrate state-of-the-art novel view synthesis peformances in both novel view rendered color maps quality and depth maps accuracy across different numbers of input views. We also show that FreeSplat performs inference more efficiently and can effectively reduce redundant Gaussians, offering the possibility of feed-forward large scene reconstruction without depth priors.
翻訳日:2024-05-29 19:37:52 公開日:2024-05-28
# マルチモーダルデータを用いたアテンションベースシーケンシャルレコメンデーションシステム

Attention-based sequential recommendation system using multimodal data ( http://arxiv.org/abs/2405.17959v1 )

ライセンス: Link先を確認
Hyungtaik Oh, Wonkeun Jo, Dongil Kim, (参考訳) 使用者の過去の行動に基づいた動的嗜好をモデル化するシーケンスレコメンデーションシステムは、電子商取引にとって不可欠である。 これらのシステムに関する最近の研究は、画像やテキストなど様々な種類の情報について考察している。 しかし、マルチモーダルデータが直接利用されてはいない。 本研究では,画像やテキスト,カテゴリといった項目のマルチモーダルデータを利用した注意に基づく逐次レコメンデーション手法を提案する。 まず,事前学習したVGGとBERTから画像とテキストの特徴を抽出し,カテゴリを多ラベル形式に変換する。 その後、アイテムシーケンスとマルチモーダル表現とは独立してアテンション操作を行う。 最後に、個別の注意情報を注目融合機能を介して統合する。 さらに,各モードにマルチタスク学習損失を適用し,一般化性能を向上させる。 Amazonデータセットから得られた実験結果は,提案手法が従来の逐次レコメンデーションシステムよりも優れていることを示している。

Sequential recommendation systems that model dynamic preferences based on a use's past behavior are crucial to e-commerce. Recent studies on these systems have considered various types of information such as images and texts. However, multimodal data have not yet been utilized directly to recommend products to users. In this study, we propose an attention-based sequential recommendation method that employs multimodal data of items such as images, texts, and categories. First, we extract image and text features from pre-trained VGG and BERT and convert categories into multi-labeled forms. Subsequently, attention operations are performed independent of the item sequence and multimodal representations. Finally, the individual attention information is integrated through an attention fusion function. In addition, we apply multitask learning loss for each modality to improve the generalization performance. The experimental results obtained from the Amazon datasets show that the proposed method outperforms those of conventional sequential recommendation systems.
翻訳日:2024-05-29 19:28:09 公開日:2024-05-28
# 機械生成テキスト検出のための変圧器とハイブリッドディープラーニングモデル

Transformer and Hybrid Deep Learning Based Models for Machine-Generated Text Detection ( http://arxiv.org/abs/2405.17964v1 )

ライセンス: Link先を確認
Teodor-George Marchitan, Claudiu Creanga, Liviu P. Dinu, (参考訳) 本稿では,SemEval 2024 Task 8: Multigenerator, Multi domain, and Multilingual Black-Box Machine-Generated Text Detectionの取り組みについて述べる。 トランスフォーマーベースおよびハイブリッドディープラーニングアーキテクチャについて検討した。 サブタスクBの場合、我々のトランスフォーマーベースモデルは7,7$のチームのうち7,7$のチームで強力な \textbf{second-place} を達成し、このタスクに対するアーキテクチャの適合性を実証した。 しかし, このモデルでは, 微調整が小さく, 最大配列長が増大する可能性があり, サブタスクAに過剰適合が認められた。 サブタスクC(トークンレベル分類)では、トレーニング中にハイブリッドモデルが過度に適合し、人間と機械生成テキスト間の遷移を検出する能力を妨げます。

This paper describes the approach of the UniBuc - NLP team in tackling the SemEval 2024 Task 8: Multigenerator, Multidomain, and Multilingual Black-Box Machine-Generated Text Detection. We explored transformer-based and hybrid deep learning architectures. For subtask B, our transformer-based model achieved a strong \textbf{second-place} out of $77$ teams with an accuracy of \textbf{86.95\%}, demonstrating the architecture's suitability for this task. However, our models showed overfitting in subtask A which could potentially be fixed with less fine-tunning and increasing maximum sequence length. For subtask C (token-level classification), our hybrid model overfit during training, hindering its ability to detect transitions between human and machine-generated text.
翻訳日:2024-05-29 19:28:09 公開日:2024-05-28
# AttenCraft: テキストと画像のカスタマイズのための複数概念の注意誘導型アンタングル

AttenCraft: Attention-guided Disentanglement of Multiple Concepts for Text-to-Image Customization ( http://arxiv.org/abs/2405.17965v1 )

ライセンス: Link先を確認
Junjie Shentu, Matthew Watson, Noura Al Moubayed, (参考訳) テキスト・ツー・イメージ(T2I)拡散モデルによって前例のないパフォーマンスが達成されているため、T2Iのカスタマイズにより、事前学習データセットに存在しない新しい概念に拡散モデルをカスタマイズすることが可能になる。 さらに,複数の概念を単一画像から抽出することで,複数の概念を学習し,同時にデータ準備の困難さを軽減し,複数の概念の絡み合いを新たな課題とする。 しかし、既存のアンタングル化モデルは、通常、事前に決められたマスクを必要とするか、背景要素を保持する必要がある。 そこで本研究では,複数の概念の絡み合いに対する注意誘導手法であるAttenCraftを提案する。 特に,本手法では,人間や他のモデルによるマスク作成を省略し,各概念の正確なマスクを作成するために,自己注意マップと横断注意マップを利用する。 生成したマスクは、トレーニング中に各目標コンセプトのクロスアテンションアクティベーションを誘導し、概念のゆがみを達成する。 さらに,異なる概念からの特徴獲得の非同期性を緩和し,生成品質を向上させるために,一様サンプリングと再重み付きサンプリング方式を導入する。 本手法は,画像アライメントの観点からベースラインモデルより優れており,テキストアライメントに適合して動作する。 最後に、3つの概念を含む入力画像など、より複雑な設定へのAttenCraftの適用性を示す。 このプロジェクトはhttps://github.com/junjie-shentu/AttenCraft.comで入手できる。

With the unprecedented performance being achieved by text-to-image (T2I) diffusion models, T2I customization further empowers users to tailor the diffusion model to new concepts absent in the pre-training dataset, termed subject-driven generation. Moreover, extracting several new concepts from a single image enables the model to learn multiple concepts, and simultaneously decreases the difficulties of training data preparation, urging the disentanglement of multiple concepts to be a new challenge. However, existing models for disentanglement commonly require pre-determined masks or retain background elements. To this end, we propose an attention-guided method, AttenCraft, for multiple concept disentanglement. In particular, our method leverages self-attention and cross-attention maps to create accurate masks for each concept within a single initialization step, omitting any required mask preparation by humans or other models. The created masks are then applied to guide the cross-attention activation of each target concept during training and achieve concept disentanglement. Additionally, we introduce Uniform sampling and Reweighted sampling schemes to alleviate the non-synchronicity of feature acquisition from different concepts, and improve generation quality. Our method outperforms baseline models in terms of image-alignment, and behaves comparably on text-alignment. Finally, we showcase the applicability of AttenCraft to more complicated settings, such as an input image containing three concepts. The project is available at https://github.com/junjie-shentu/AttenCraft.
翻訳日:2024-05-29 19:28:09 公開日:2024-05-28
# 非古典性・絡み合い検出のための等間隔プリセッションプロトコル

An even-parity precession protocol for detecting nonclassicality and entanglement ( http://arxiv.org/abs/2405.17966v1 )

ライセンス: Link先を確認
Jinyan Chen, Jackson Tiong, Lin Htoo Zaw, Valerio Scarani, (参考訳) 本研究では,ある量子状態の非古典性を検出するための等間隔プリセッションプロトコルを提案する。 研究中のシステムによって、このプロトコルは単一の量子調和振動子のウィグナー負性や、単一のスピン$j\geq 2$、二つの調和振動子の非ガウス的絡み合い、スピンアンサンブルの真のマルチパート的絡み合い、全スピンが整数である。 他の古典的でない試験とは異なり、同時または連続的な測定は不要である。 我々のプロトコルはパリティ演算子と通信する状態を検出できるが、これはTsirelsonの元々のプリセッションプロトコルから構築された同様のプロトコルに欠落していた。 この研究は、集合スピン測定のみを用いて偶数の量子ビットのグリーンベルガー-ホルン-ザイリンガー絡みを検出する可能性を示すことによって、長期間のギャップを埋める。

We introduce an even-parity precession protocol that can detect nonclassicality of some quantum states using only measurements of a uniformly-precessing variable at different points in time. Depending on the system under study, the protocol may detect the Wigner negativity of a single quantum harmonic oscillator or of a single spin $j\geq 2$; the non-Gaussian entanglement of two harmonic oscillators; or genuine multipartite entanglement of a spin ensemble, whose total spin is integer. Unlike other nonclassicality tests, simultaneous or sequential measurements are not required. Our protocol can also detect states that commute with the parity operator, which were missed by similar protocols built from Tsirelson's original precession protocol. This work also closes a long-standing gap by showing the possibility of detecting the Greenberger--Horne--Zeilinger entanglement of an even number of qubits using only collective spin measurements.
翻訳日:2024-05-29 19:28:09 公開日:2024-05-28
# 準線形時間におけるマトロイドセミバンド

Matroid Semi-Bandits in Sublinear Time ( http://arxiv.org/abs/2405.17968v1 )

ライセンス: Link先を確認
Ruo-Chun Tzeng, Naoto Ohsaka, Kaito Ariu, (参考訳) 本研究では,各ラウンドにおいて学習者が実現可能な集合からK$アームのサブセットを再生し,期待される累積線形報酬を最大化するマトロイド半帯域問題について検討する。 既存のアルゴリズムは時間単位の複雑さを少なくとも$\Omega(K)$としており、K$が大きければ高価になる。 この計算問題に対処するために、FasterCUCBを提案し、そのサンプリングルールは、マトロイドの共通クラスに対して$K$で時間サブ線形をとる:$O(D\text{ polylog}(K)\text{ polylog}(T))$ for uniform matroids, partition matroids, and graphical matroids, $O(D\sqrt{K}\text{ polylog}(T))$ for transversal matroids。 ここでは、$D$は腕の任意の実現可能な部分集合の最大要素数であり、$T$は地平線である。 本手法は内積重量に対する近似最大重量基底の動的維持に基づく。 近似的最大重み基底の導入は、後悔解析において挑戦となるが、Kveton et al (2014a) の漸近的にギャップ依存的下界と一致するという意味では、CUCB と同じくらい強い後悔の上限を保証できる。

We study the matroid semi-bandits problem, where at each round the learner plays a subset of $K$ arms from a feasible set, and the goal is to maximize the expected cumulative linear rewards. Existing algorithms have per-round time complexity at least $\Omega(K)$, which becomes expensive when $K$ is large. To address this computational issue, we propose FasterCUCB whose sampling rule takes time sublinear in $K$ for common classes of matroids: $O(D\text{ polylog}(K)\text{ polylog}(T))$ for uniform matroids, partition matroids, and graphical matroids, and $O(D\sqrt{K}\text{ polylog}(T))$ for transversal matroids. Here, $D$ is the maximum number of elements in any feasible subset of arms, and $T$ is the horizon. Our technique is based on dynamic maintenance of an approximate maximum-weight basis over inner-product weights. Although the introduction of an approximate maximum-weight basis presents a challenge in regret analysis, we can still guarantee an upper bound on regret as tight as CUCB in the sense that it matches the gap-dependent lower bound by Kveton et al. (2014a) asymptotically.
翻訳日:2024-05-29 19:28:09 公開日:2024-05-28
# 予め学習した変圧器の知識回路

Knowledge Circuits in Pretrained Transformers ( http://arxiv.org/abs/2405.17969v1 )

ライセンス: Link先を確認
Yunzhi Yao, Ningyu Zhang, Zekun Xi, Mengru Wang, Ziwen Xu, Shumin Deng, Huajun Chen, (参考訳) 現代の大規模言語モデルの顕著な能力は、そのパラメータにエンコードされた膨大な知識のリポジトリに根ざしているため、彼らは世界を知覚し、推論に携わることができる。 これらのモデルが知識を格納する方法についての内部的な研究は、長い間、研究者の間で激しい関心と調査の対象となっていた。 これまで、ほとんどの研究は、多層パーセプトロンやアテンションヘッドなど、これらのモデル内の孤立成分に集中してきた。 本稿では,言語モデルの計算グラフを掘り下げて,特定の知識を明確にするための知識回路を明らかにする。 GPT2 と TinyLLAMA を用いて行った実験により,特定の情報ヘッド,関係ヘッド,多層パーセプトロンがモデル内の知識を協調的に符号化する様子を観察できるようになった。 さらに、これらの知識回路に対する現在の知識編集技術の影響を評価し、これらの編集手法の機能や制約についてより深い知見を提供する。 最後に,知識回路を用いて幻覚や文脈内学習などの言語モデル行動を分析し,解釈する。 我々は、知識回路がトランスフォーマーの理解を深め、知識編集の改良設計を導く可能性を秘めていると考えている。 コードとデータはhttps://github.com/zjunlp/KnowledgeCircuits.comで公開されている。

The remarkable capabilities of modern large language models are rooted in their vast repositories of knowledge encoded within their parameters, enabling them to perceive the world and engage in reasoning. The inner workings of how these models store knowledge have long been a subject of intense interest and investigation among researchers. To date, most studies have concentrated on isolated components within these models, such as the Multilayer Perceptrons and attention head. In this paper, we delve into the computation graph of the language model to uncover the knowledge circuits that are instrumental in articulating specific knowledge. The experiments, conducted with GPT2 and TinyLLAMA, has allowed us to observe how certain information heads, relation heads, and Multilayer Perceptrons collaboratively encode knowledge within the model. Moreover, we evaluate the impact of current knowledge editing techniques on these knowledge circuits, providing deeper insights into the functioning and constraints of these editing methodologies. Finally, we utilize knowledge circuits to analyze and interpret language model behaviors such as hallucinations and in-context learning. We believe the knowledge circuit holds potential for advancing our understanding of Transformers and guiding the improved design of knowledge editing. Code and data are available in https://github.com/zjunlp/KnowledgeCircuits.
翻訳日:2024-05-29 19:28:09 公開日:2024-05-28
# mHealthプライバシー実践のための質的分析フレームワーク

A Qualitative Analysis Framework for mHealth Privacy Practices ( http://arxiv.org/abs/2405.17971v1 )

ライセンス: Link先を確認
Thomas Cory, Wolf Rieder, Thu-My Huynh, (参考訳) モバイルヘルス(mHealth)アプリケーションは、健康モニタリングと管理において重要な部分となっている。 しかし、これらのアプリケーションの普及は、個人識別可能な情報と保護された健康情報のプライバシーとセキュリティに関する懸念を引き起こしている。 これらの問題に対処するために,mHealthアプリのプライバシープラクティスの質的評価のための新しいフレームワークを提案する。 調査では,Androidプラットフォーム上でmHealthをリードする152のアプリを解析し,提案したフレームワークを活用して,データ処理アクティビティの多面的なビューを提供する。 欧州連合(EU)の一般データ保護規則や、米国の健康保険ポータビリティ・説明責任法などの厳格な規制にもかかわらず、当社の調査結果は、機密情報の無視と誤用に関する永続的な問題を示している。 我々は、サードパーティのトラッカーへの健康情報漏洩の重大な事例を明らかにし、プライバシ・バイ・デザインと透明性の原則を広く無視している。 我々の研究は、データ保護法の厳格化に対する批判的な必要性を強調し、mHealthエコシステムにおけるユーザのプライバシ向上を目的とした今後の取り組みの基礎を定めています。

Mobile Health (mHealth) applications have become a crucial part of health monitoring and management. However, the proliferation of these applications has also raised concerns over the privacy and security of Personally Identifiable Information and Protected Health Information. Addressing these concerns, this paper introduces a novel framework for the qualitative evaluation of privacy practices in mHealth apps, particularly focusing on the handling and transmission of sensitive user data. Our investigation encompasses an analysis of 152 leading mHealth apps on the Android platform, leveraging the proposed framework to provide a multifaceted view of their data processing activities. Despite stringent regulations like the General Data Protection Regulation in the European Union and the Health Insurance Portability and Accountability Act in the United States, our findings indicate persistent issues with negligence and misuse of sensitive user information. We uncover significant instances of health information leakage to third-party trackers and a widespread neglect of privacy-by-design and transparency principles. Our research underscores the critical need for stricter enforcement of data protection laws and sets a foundation for future efforts aimed at enhancing user privacy within the mHealth ecosystem.
翻訳日:2024-05-29 19:28:09 公開日:2024-05-28
# パーソナライズダイアログ生成の最近の動向:データセット,方法論,評価の概観

Recent Trends in Personalized Dialogue Generation: A Review of Datasets, Methodologies, and Evaluations ( http://arxiv.org/abs/2405.17974v1 )

ライセンス: Link先を確認
Yi-Pei Chen, Noriki Nishida, Hideki Nakayama, Yuji Matsumoto, (参考訳) 対話エージェントにおけるパーソナライズによるユーザエンゲージメントの強化は,特に流動的な応答を生成する大規模言語モデルの出現によって重要になった。 しかし、パーソナライズされた対話生成は多面的であり、その定義は、エージェントにペルソナを注入することから、ユーザの明示的で暗黙的な手がかりをキャプチャすることまで様々である。 本稿では, 個人化された対話生成の最近の状況について, 採用したデータセット, 開発手法, 適用した評価指標などについて, 体系的に調査することを目的とする。 22のデータセットをカバーし、ベンチマークデータセットと、追加機能に富んだ新しいデータセットを強調します。 さらに,2021~2023年の最上位会議から17のセミナー作品を分析し,5種類の問題を同定した。 また、パーソナライズされた対話生成におけるLLMの最近の進歩についても光を当てた。 評価セクションでは、これらの研究で利用される評価ファセットとメトリクスの包括的概要について紹介する。 結論として,パーソナライズされた対話生成における課題と今後の研究の方向性について論じる。

Enhancing user engagement through personalization in conversational agents has gained significance, especially with the advent of large language models that generate fluent responses. Personalized dialogue generation, however, is multifaceted and varies in its definition -- ranging from instilling a persona in the agent to capturing users' explicit and implicit cues. This paper seeks to systemically survey the recent landscape of personalized dialogue generation, including the datasets employed, methodologies developed, and evaluation metrics applied. Covering 22 datasets, we highlight benchmark datasets and newer ones enriched with additional features. We further analyze 17 seminal works from top conferences between 2021-2023 and identify five distinct types of problems. We also shed light on recent progress by LLMs in personalized dialogue generation. Our evaluation section offers a comprehensive summary of assessment facets and metrics utilized in these works. In conclusion, we discuss prevailing challenges and envision prospect directions for future research in personalized dialogue generation.
翻訳日:2024-05-29 19:28:09 公開日:2024-05-28
# 人民元2.0-M32:専門家とアテンションルータの混成

Yuan 2.0-M32: Mixture of Experts with Attention Router ( http://arxiv.org/abs/2405.17976v1 )

ライセンス: Link先を確認
Shaohua Wu, Jiangang Luo, Xi Chen, Lingjun Li, Xudong Zhao, Tong Yu, Chao Wang, Yue Wang, Fei Wang, Weixu Qiao, Houbo He, Zeru Zhang, Zeyu Sun, Junxiong Mao, Chong Shen, (参考訳) Yuan 2.0-M32は、Yuan-2.0 2Bと同様のベースアーキテクチャで、32人のエキスパートと2人のエキスパートが活動する混合専門家アーキテクチャを使用している。 新しいルータネットワークであるAttention Routerが提案され、より効率的な専門家の選択のために採用され、従来のルータネットワークと比較して3.8%の精度が向上する。 Yuan 2.0-M32は2000Bトークンをゼロからトレーニングしており、トレーニング計算の消費量は同じパラメータスケールの密度モデルの9.25%に過ぎない。 Yuan 2.0-M32はコーディング、数学、および様々な専門分野の競争力を示し、40Bのアクティブパラメータは3.7B、トークン当たり7.4GFlops 前処理はLlama3-70Bの1/19のみである。 Yuan 2.0-M32 は MATH と ARC-Challenge のベンチマークで Llama3-70B を上回っ、それぞれ 55.89 と 95.8 である。 Yuan 2.0-M32のモデルとソースコードはGithubで公開されている。

Yuan 2.0-M32, with a similar base architecture as Yuan-2.0 2B, uses a mixture-of-experts architecture with 32 experts of which 2 experts are active. A new router network, Attention Router, is proposed and adopted for a more efficient selection of experts, which boosts the accuracy of 3.8% compared to the model with classical router network. Yuan 2.0-M32 is trained with 2000B tokens from scratch, and the training computation consumption is only 9.25% of a dense model at the same parameter scale. Yuan 2.0-M32 demonstrates competitive capability on coding, math, and various domains of expertise, with only 3.7B active parameters of 40B in total, and 7.4 GFlops forward computation per token, both of which are only 1/19 of Llama3-70B. Yuan 2.0-M32 surpass Llama3-70B on MATH and ARC-Challenge benchmark, with accuracy of 55.89 and 95.8 respectively. The models and source codes of Yuan 2.0-M32 are released at Github.
翻訳日:2024-05-29 19:28:09 公開日:2024-05-28
# システム・メッセージ・ジェネリゼーションによる数千の選好の調整

Aligning to Thousands of Preferences via System Message Generalization ( http://arxiv.org/abs/2405.17977v1 )

ライセンス: Link先を確認
Seongyun Lee, Sue Hyun Park, Seungone Kim, Minjoon Seo, (参考訳) 人間は本質的に様々な値を持っているが、現在の大規模言語モデル(LLM)アライメント手法は、LLMと一般大衆の嗜好の整合が最適であると仮定することが多い。 LLMアライメントにより個別化されたアプローチを採用する際の大きな課題はスケーラビリティの欠如である。 これらの課題に対処するために,ユーザがシステムメッセージ内で最も価値の高いものを指定し,LLMの生成動作をユーザの意図に適合させる,新たなパラダイムを提案する。 しかし、このようなアプローチの素直な応用は、通常、LLMは均一なシステムメッセージ(例えば"あなたもアシスタントである")で訓練されているため、多種多様なシステムメッセージに一般化する能力を制限するため、簡単ではない。 この一般化を改善するために、65kのユーザ命令にまたがる、汎用的な有用性と無害性を超えた192kの値の組み合わせからなる選好データセットであるMultifaceted Collectionを作成しました。 このデータセットを使用して、Janusと呼ばれる7B LLMをトレーニングし、ユーザの好みを反映したさまざまな未知のシステムメッセージを追加することで、5つのベンチマーク(AlpacaEval 2.0、FLASK、Koala、MT-Bench、Self-Instruct)から921のプロンプトでテストします。 JanusはMistral 7B Instruct v0.2, GPT-3.5 Turbo, GPT-4に対して75.2%, 72.4%, 66.4%のタイ+ウィン率を達成した。 予想外の3つのベンチマーク(AlpacaEval 2.0, MT-Bench, Arena Hard Auto v0.1)では、JanusはLLaMA 3 8Bインストラクションを+4.0%, +0.1%, +3.0%で上回り、システムメッセージの膨大な配列によるトレーニングが一般大衆の嗜好と整合する可能性があることを強調した。 私たちのコード、データセット、ベンチマーク、モデルはhttps://github.com/kaistAI/Janus.comで公開されています。

Although humans inherently have diverse values, current large language model (LLM) alignment methods often assume that aligning LLMs with the general public's preferences is optimal. A major challenge in adopting a more individualized approach to LLM alignment is its lack of scalability, as it involves repeatedly acquiring preference data and training new reward models and LLMs for each individual's preferences. To address these challenges, we propose a new paradigm where users specify what they value most within the system message, steering the LLM's generation behavior to better align with the user's intentions. However, a naive application of such an approach is non-trivial since LLMs are typically trained on a uniform system message (e.g., "You are a helpful assistant") which limits their ability to generalize to diverse, unseen system messages. To improve this generalization, we create the Multifaceted Collection, a preference dataset with 192k combinations of values beyond generic helpfulness and harmlessness, spanning 65k user instructions. Using this dataset, we train a 7B LLM called Janus and test it on 921 prompts from 5 benchmarks (AlpacaEval 2.0, FLASK, Koala, MT-Bench, and Self-Instruct) by adding various unseen system messages that reflect user preferences. Janus achieves tie+win rate of 75.2%, 72.4%, and 66.4% against Mistral 7B Instruct v0.2, GPT-3.5 Turbo, and GPT-4, respectively. Unexpectedly, on three benchmarks focused on response helpfulness (AlpacaEval 2.0, MT-Bench, Arena Hard Auto v0.1), Janus also outperforms LLaMA 3 8B Instruct by a +4.0%, +0.1%, +3.0% margin, underscoring that training with a vast array of system messages could also enhance alignment to the general public's preference as well. Our code, dataset, benchmark, and models are available at https://github.com/kaistAI/Janus.
翻訳日:2024-05-29 19:28:09 公開日:2024-05-28
# FASTopic: 高速で適応的で、安定的で、転送可能なトピックモデリングパラダイム

FASTopic: A Fast, Adaptive, Stable, and Transferable Topic Modeling Paradigm ( http://arxiv.org/abs/2405.17978v1 )

ライセンス: Link先を確認
Xiaobao Wu, Thong Nguyen, Delvin Ce Zhang, William Yang Wang, Anh Tuan Luu, (参考訳) トピックモデルは、従来のニューラルネットワークモデルから最近のニューラルネットワークモデルまで、長年にわたって急速に進化してきた。 しかし、既存のトピックモデルは、一般的に有効性、効率性、安定性のいずれかに苦慮し、実践的な応用を非常に妨げている。 本稿では,高速で適応的で,安定で,移動可能なトピックモデルであるFASTopicを提案する。 FASTopic は新たなパラダイムである Dual Semantic-Relation Reconstruction (DSR) に従う。 従来のVAEベースやクラスタリングベースの手法の代わりに、DSRは文書、トピック、単語の埋め込み間の意味関係をモデル化することで、再構築によって潜在トピックを発見する。 これにより、きれいで効率的なトピックモデリングフレームワークが生まれます。 さらに,新しいEmbedding Transport Plan (ETP) 手法を提案する。 初期の単純なアプローチではなく、ETPはセマンティックな関係を最適な輸送計画として明確に規則化している。 これは関係バイアスの問題に対処し、効果的なトピックモデリングにつながる。 ベンチマークデータセットの大規模な実験により、FASTopicは様々なシナリオにおける最先端のベースラインと比較して、優れた効率性、効率性、適応性、安定性、転送性を示します。 私たちのコードはhttps://github.com/bobxwu/FASTopic で利用可能です。

Topic models have been evolving rapidly over the years, from conventional to recent neural models. However, existing topic models generally struggle with either effectiveness, efficiency, or stability, highly impeding their practical applications. In this paper, we propose FASTopic, a fast, adaptive, stable, and transferable topic model. FASTopic follows a new paradigm: Dual Semantic-relation Reconstruction (DSR). Instead of previous conventional, neural VAE-based or clustering-based methods, DSR discovers latent topics by reconstruction through modeling the semantic relations among document, topic, and word embeddings. This brings about a neat and efficient topic modeling framework. We further propose a novel Embedding Transport Plan (ETP) method. Rather than early straightforward approaches, ETP explicitly regularizes the semantic relations as optimal transport plans. This addresses the relation bias issue and thus leads to effective topic modeling. Extensive experiments on benchmark datasets demonstrate that our FASTopic shows superior effectiveness, efficiency, adaptivity, stability, and transferability, compared to state-of-the-art baselines across various scenarios. Our code is available at https://github.com/bobxwu/FASTopic .
翻訳日:2024-05-29 19:28:09 公開日:2024-05-28
# 言語モデルにおける思考へのピアリング--文脈質問回答における帰属へのアプローチ

Peering into the Mind of Language Models: An Approach for Attribution in Contextual Question Answering ( http://arxiv.org/abs/2405.17980v1 )

ライセンス: Link先を確認
Anirudh Phukan, Shwetha Somasundaram, Apoorv Saxena, Koustava Goswami, Balaji Vasan Srinivasan, (参考訳) 生成人工知能(AI)分野の強化に伴い、文脈質問応答は非常に重要になっている。 信頼性と信頼性を確保するためには、入力元文書にモデル世代を帰属させることが不可欠である。 大規模言語モデル (LLM) を文脈的質問応答に使用する場合, LLM が生成した "glue text" とリンクした入力プロンプトからテキストをコピーした冗長なテキストを出力する。 そこで本研究では,LLMのテキストがコピーされた場所から,LLMの隠れた状態に捕らわれている可能性が示唆された。 本稿では,LLMの隠れ状態表現を利用した文脈的質問応答における帰属手法を提案する。 提案手法は,より詳細な属性を提供し,生成した回答の質を保ちながら,広範囲なモデル再訓練および検索モデルオーバーヘッドの必要性を回避している。 実験の結果,本手法は,LPM世代における冗長なコピーセグメントの同定と,これらのセグメントのソースへの寄与において,GPT-4よりも同等以上の性能を示すことが示された。 重要なことに,本手法は多種多様なLLMアーキテクチャにまたがるロバストな性能を示し,その適用性を強調している。 さらに,LLM世代に対するトークンレベルのアノテーションを持つ属性データセットであるVerifiability-granularを提案する。

With the enhancement in the field of generative artificial intelligence (AI), contextual question answering has become extremely relevant. Attributing model generations to the input source document is essential to ensure trustworthiness and reliability. We observe that when large language models (LLMs) are used for contextual question answering, the output answer often consists of text copied verbatim from the input prompt which is linked together with "glue text" generated by the LLM. Motivated by this, we propose that LLMs have an inherent awareness from where the text was copied, likely captured in the hidden states of the LLM. We introduce a novel method for attribution in contextual question answering, leveraging the hidden state representations of LLMs. Our approach bypasses the need for extensive model retraining and retrieval model overhead, offering granular attributions and preserving the quality of generated answers. Our experimental results demonstrate that our method performs on par or better than GPT-4 at identifying verbatim copied segments in LLM generations and in attributing these segments to their source. Importantly, our method shows robust performance across various LLM architectures, highlighting its broad applicability. Additionally, we present Verifiability-granular, an attribution dataset which has token level annotations for LLM generations in the contextual question answering setup.
翻訳日:2024-05-29 19:28:09 公開日:2024-05-28
# 信頼回帰準ニュートン政策最適化による強化モデル予測制御

Reinforced Model Predictive Control via Trust-Region Quasi-Newton Policy Optimization ( http://arxiv.org/abs/2405.17983v1 )

ライセンス: Link先を確認
Dean Brandner, Sergio Lucia, (参考訳) モデル予測制御は制約を考慮した非線形系を最適に扱うことができる。 制御性能はモデル精度と予測地平線に依存する。 近年の進歩として,パラメータ化モデル予測コントローラに適用した強化学習を用いて,不完全なモデルや短い予測水平線を用いても最適制御性能を回復する手法が提案されている。 しかし、一般的な強化学習アルゴリズムは1次更新に依存しており、これは線形収束率のみを持ち、従って過度のダイナミックデータを必要とする。 高次更新は、多くのパラメータのために、ポリシーがニューラルネットワークに近似されている場合、典型的には難解である。 本研究では,パラメータ化モデル予測制御器をポリシとして使用し,必要パラメータの少なさを利用して,超線形収束率を持つポリシ最適化のための信頼領域制約準ニュートントレーニングアルゴリズムを提案する。 本稿では,方程式の線形系の解法により,必要な2階微分情報を計算可能であることを示す。 シミュレーション研究は、提案したトレーニングアルゴリズムがデータ効率と精度で他のアルゴリズムより優れていることを示している。

Model predictive control can optimally deal with nonlinear systems under consideration of constraints. The control performance depends on the model accuracy and the prediction horizon. Recent advances propose to use reinforcement learning applied to a parameterized model predictive controller to recover the optimal control performance even if an imperfect model or short prediction horizons are used. However, common reinforcement learning algorithms rely on first order updates, which only have a linear convergence rate and hence need an excessive amount of dynamic data. Higher order updates are typically intractable if the policy is approximated with neural networks due to the large number of parameters. In this work, we use a parameterized model predictive controller as policy, and leverage the small amount of necessary parameters to propose a trust-region constrained Quasi-Newton training algorithm for policy optimization with a superlinear convergence rate. We show that the required second order derivative information can be calculated by the solution of a linear system of equations. A simulation study illustrates that the proposed training algorithm outperforms other algorithms in terms of data efficiency and accuracy.
翻訳日:2024-05-29 19:28:09 公開日:2024-05-28
# グラフプロンプト学習に対するクロスコンテキストバックドアアタック

Cross-Context Backdoor Attacks against Graph Prompt Learning ( http://arxiv.org/abs/2405.17984v1 )

ライセンス: Link先を確認
Xiaoting Lyu, Yufei Han, Wei Wang, Hangwei Qian, Ivor Tsang, Xiangliang Zhang, (参考訳) Graph Prompt Learning (GPL)は、実世界のグラフ学習における知識伝達ボトルネックを軽減するために、事前学習と下流アプリケーションの間の大きな格差を埋める。 GPLは、グラフ知識の伝達と計算効率において優れた効果をもたらすが、事前訓練されたモデルに埋め込まれたバックドア中毒の影響によるセキュリティリスクは、ほとんど未解明のままである。 我々の研究は、GPLのバックドア攻撃に対する脆弱性を包括的に分析する。 本稿では,GPL に対する最初のクロスコンテキストバックドア攻撃である \textit{CrossBA} を紹介する。 我々の研究は、チューニングトリガグラフと迅速な変換を組み合わせることで、事前訓練されたエンコーダから下流アプリケーションへのバックドア脅威をシームレスに転送できることを理論的および実証的に明らかにしている。 5つの異なるクロスコンテキストシナリオと5つのベンチマークデータセットのノードとグラフの分類タスクにまたがる3つの代表的なGPLメソッドに関する広範な実験を通じて、クリーンな入力よりも下流アプリケーションの機能を保ちながら、 \textit{CrossBA} が常に高い攻撃成功率を達成することを示した。 また, 現状の防衛策は, textit{CrossBA} を緩和するには不十分であると結論づける。 本研究は,GPL システムに対する持続的なバックドアの脅威を強調し,GPL 技術の実践における信頼性の懸念を提起する。

Graph Prompt Learning (GPL) bridges significant disparities between pretraining and downstream applications to alleviate the knowledge transfer bottleneck in real-world graph learning. While GPL offers superior effectiveness in graph knowledge transfer and computational efficiency, the security risks posed by backdoor poisoning effects embedded in pretrained models remain largely unexplored. Our study provides a comprehensive analysis of GPL's vulnerability to backdoor attacks. We introduce \textit{CrossBA}, the first cross-context backdoor attack against GPL, which manipulates only the pretraining phase without requiring knowledge of downstream applications. Our investigation reveals both theoretically and empirically that tuning trigger graphs, combined with prompt transformations, can seamlessly transfer the backdoor threat from pretrained encoders to downstream applications. Through extensive experiments involving 3 representative GPL methods across 5 distinct cross-context scenarios and 5 benchmark datasets of node and graph classification tasks, we demonstrate that \textit{CrossBA} consistently achieves high attack success rates while preserving the functionality of downstream applications over clean input. We also explore potential countermeasures against \textit{CrossBA} and conclude that current defenses are insufficient to mitigate \textit{CrossBA}. Our study highlights the persistent backdoor threats to GPL systems, raising trustworthiness concerns in the practices of GPL techniques.
翻訳日:2024-05-29 19:28:09 公開日:2024-05-28
# BlueSWAT:Bluetooth低エネルギーのための軽量ステートアウェアセキュリティフレームワーク

BlueSWAT: A Lightweight State-Aware Security Framework for Bluetooth Low Energy ( http://arxiv.org/abs/2405.17987v1 )

ライセンス: Link先を確認
Xijia Che, Yi He, Xuewei Feng, Kun Sun, Ke Xu, Qi Li, (参考訳) Bluetooth Low Energy (BLE)は、リソース制約されたIoTデバイスのための短距離無線通信技術である。 残念ながら、BLEはセッションベースの攻撃に対して脆弱であり、前のパケットは接続を損なうために後続のパケットに対して悪用可能な条件を構築している。 個別に検査された場合、攻撃シーケンスの各ステップが合法であるため、セッションベースの攻撃に対する防御は難しい。 本稿では,BLEデバイスを保護するための軽量な状態認識セキュリティフレームワークBlueSWATを提案する。 個々のパケットではなくセッションレベルを検査するために、BlueSWATは有限状態マシン(FSM)を活用して実行時に接続のシーケンシャルな動作を監視する。 セッションベースの攻撃のパターンは、FSM内の悪意のある移行パスとしてモデル化されている。 不均一なIoT環境を克服するため、デバイス再起動を必要とせず、さまざまなBLEアーキテクチャやスタックにまたがる共通パッチ配布を容易にする軽量なeBPFフレームワークを開発した。 チップとスタックの異なる5つの実世界のデバイス上でBlueSWATを実装し、デバイス間の適合性を実証する。 101の現実世界のBLE脆弱性を持つデータセットでは、BlueSWATは76.1%のセッションベースの攻撃を軽減し、他の防御フレームワークを上回っています。 エンドツーエンドのアプリケーション評価では、BlueSWATパッチは平均0.073%のメモリオーバーヘッドと無視可能なレイテンシを導入しています。

Bluetooth Low Energy (BLE) is a short-range wireless communication technology for resource-constrained IoT devices. Unfortunately, BLE is vulnerable to session-based attacks, where previous packets construct exploitable conditions for subsequent packets to compromise connections. Defending against session-based attacks is challenging because each step in the attack sequence is legitimate when inspected individually. In this paper, we present BlueSWAT, a lightweight state-aware security framework for protecting BLE devices. To perform inspection on the session level rather than individual packets, BlueSWAT leverages a finite state machine (FSM) to monitor sequential actions of connections at runtime. Patterns of session-based attacks are modeled as malicious transition paths in the FSM. To overcome the heterogeneous IoT environment, we develop a lightweight eBPF framework to facilitate universal patch distribution across different BLE architectures and stacks, without requiring device reboot. We implement BlueSWAT on 5 real-world devices with different chips and stacks to demonstrate its cross-device adaptability. On our dataset with 101 real-world BLE vulnerabilities, BlueSWAT can mitigate 76.1% of session-based attacks, outperforming other defense frameworks. In our end-to-end application evaluation, BlueSWAT patches introduce an average of 0.073% memory overhead and negligible latency.
翻訳日:2024-05-29 19:28:09 公開日:2024-05-28
# VeLoRA: Rank-1サブトークン投影によるメモリ効率向上トレーニング

VeLoRA: Memory Efficient Training using Rank-1 Sub-Token Projections ( http://arxiv.org/abs/2405.17991v1 )

ライセンス: Link先を確認
Roy Miles, Pradyumna Reddy, Ismail Elezi, Jiankang Deng, (参考訳) 大規模言語モデル(LLM)は、最近、多くの言語処理タスクに対処するための強力なツールとして登場した。 これらのモデルの成功にもかかわらず、トレーニングと微調整はまだ計算量が多く、メモリが集中的だ。 本稿では,勾配勾配勾配を用いた効率的なモデル収束に必要な重要な成分を同定し,特徴付ける。 これにより、バックプロパゲーションを実装するのに使用される中間活性化は、性能の劣化を招くことなく過度に圧縮できることが分かる。 この結果から, 微調整と事前学習の両方のための, 安価かつメモリ効率のよいアルゴリズムが得られた。 提案アルゴリズムは,前方通過中に1次元の固定部分空間に投影する前に,トークンを小さなサブトークンに分割する。 これらの機能は、更新ルールを実装するために、後方パス中に粗く再構築される。 VTAB-1kファインチューニングベンチマークにおいて,提案アルゴリズムの有効性を多くの最先端PEFT法に補完するものとして検証した。 さらに,LLaMAの微調整におけるQLoRAよりも優れ,大規模C4データセット上でのメモリ効率の高い事前学習手法と競合する性能を示す。

Large language models (LLMs) have recently emerged as powerful tools for tackling many language-processing tasks. Despite their success, training and fine-tuning these models is still far too computationally and memory intensive. In this paper, we identify and characterise the important components needed for effective model convergence using gradient descent. In doing so we find that the intermediate activations used to implement backpropagation can be excessively compressed without incurring any degradation in performance. This result leads us to a cheap and memory-efficient algorithm for both fine-tuning and pre-training LLMs. The proposed algorithm simply divides the tokens up into smaller sub-tokens before projecting them onto a fixed 1-dimensional subspace during the forward pass. These features are then coarsely reconstructed during the backward pass to implement the update rules. We confirm the effectiveness of our algorithm as being complimentary to many state-of-the-art PEFT methods on the VTAB-1k fine-tuning benchmark. Furthermore, we outperform QLoRA for fine-tuning LLaMA and show competitive performance against other memory-efficient pre-training methods on the large-scale C4 dataset.
翻訳日:2024-05-29 19:18:23 公開日:2024-05-28
# 複雑性増加の言語モデルに基づくfMRI予測器による左脳側方化の回復

fMRI predictors based on language models of increasing complexity recover brain left lateralization ( http://arxiv.org/abs/2405.17992v1 )

ライセンス: Link先を確認
Laurent Bonnasse-Gahot, Christophe Pallier, (参考訳) 過去10年間で、参加者が連続したテキストを聴きながらスキャンされる自然言語処理の研究が盛んになった。 単語の埋め込み、そして大きな言語モデルを使って、研究者は脳の信号を解析するエンコーディングモデルを開発した。 参加者と同じテキストでこれらのモデルを提示することで、機能的磁気共鳴画像(fMRI)時系列と、モデルの人工ニューロンによって予測される領域との間に有意な相関関係がある脳領域を特定できる。 これらの研究から興味深い発見の一つは、言語処理の左サイドサイドライゼーションに反する、高度に対称な両側アクティベーションパターンが明らかになったことである。 本稿では,大規模言語モデルの複雑性を操作するfMRIデータセットの解析を行い,124Mから14.2Bのパラメータを含む8つの家系の事前学習された28のモデルを検証した。 まず,脳活動に適合する脳活動が,モデルのパラメータ数(および自然言語処理タスクにおけるその性能)の対数と線形に増加するという,脳反応を予測するモデルの性能がスケーリング法則に従うことを観察する。 第二に、モデルのサイズが大きくなるにつれて、左右の非対称性が徐々に現れ、左右の脳相関の差もスケーリング則に従うことを示す。 最小のモデルは非対称性を示さないが、より大きなモデルは右半球のモデルよりも左半球のアクティベーションに適合する。 この発見は、大きな言語モデルを用いた脳活動の計算的解析と、言語に対する左半球優位を示す失語患者からの古典的な観察を照合する。

Over the past decade, studies of naturalistic language processing where participants are scanned while listening to continuous text have flourished. Using word embeddings at first, then large language models, researchers have created encoding models to analyze the brain signals. Presenting these models with the same text as the participants allows to identify brain areas where there is a significant correlation between the functional magnetic resonance imaging (fMRI) time series and the ones predicted by the models' artificial neurons. One intriguing finding from these studies is that they have revealed highly symmetric bilateral activation patterns, somewhat at odds with the well-known left lateralization of language processing. Here, we report analyses of an fMRI dataset where we manipulate the complexity of large language models, testing 28 pretrained models from 8 different families, ranging from 124M to 14.2B parameters. First, we observe that the performance of models in predicting brain responses follows a scaling law, where the fit with brain activity increases linearly with the logarithm of the number of parameters of the model (and its performance on natural language processing tasks). Second, we show that a left-right asymmetry gradually appears as model size increases, and that the difference in left-right brain correlations also follows a scaling law. Whereas the smallest models show no asymmetry, larger models fit better and better left hemispheric activations than right hemispheric ones. This finding reconciles computational analyses of brain activity using large language models with the classic observation from aphasic patients showing left hemisphere dominance for language.
翻訳日:2024-05-29 19:18:23 公開日:2024-05-28
# 古典場によって駆動される点状$$$型量子エミッタを持つ半無限線形導波路における創発的振動状態

Emergent Oscillating bound states in a semi-infinite linear waveguide with a point-like $Λ$-type quantum emitter driven by a classical field ( http://arxiv.org/abs/2405.17994v1 )

ライセンス: Link先を確認
YuPing He, Ge Sun, Jing Li, Ya Yang, Ling Lu, Lan Zhou, (参考訳) 発振バウンド状態(英: oscillating bound state)とは、連続体モードによって媒介される励起が持続的に発振する現象である。 連続体(BIC)における2つの境界状態の重ね合わせによって生成されるが、そのような現象は巨大原子に特有のものであると言われている。 本稿では, 1次元半無限導波路である代替導波路QEDシステムと, \textit{point-like}量子エミッタを結合した振動束縛状態の現象を示す。 この \textit{point-like} 量子エミッターは古典的場によって駆動される1つの遷移を持つ$\Lambda$-type量子系である。

An oscillating bound state is a phenomenon where excitations mediated by the continuum modes oscillate persistently. Although it is generated by the superposition of two bound states in the continuum (BICs), such phenomenon is said to be unique to giant atoms. We present the phenomenon of an oscillating bound state with an alternative waveguide QED system, which is a one-dimensional semi-infinite waveguide coupled to a \textit{point-like} quantum emitter. This \textit{point-like} quantum emitter is $\Lambda$-type quantum system with one transition driven by a classical field.
翻訳日:2024-05-29 19:18:23 公開日:2024-05-28
# DMT-JEPA: 統合埋め込み予測アーキテクチャのための差別的マスケッドターゲット

DMT-JEPA: Discriminative Masked Targets for Joint-Embedding Predictive Architecture ( http://arxiv.org/abs/2405.17995v1 )

ライセンス: Link先を確認
Shentong Mo, Sukmin Yun, (参考訳) JEPA(Joint-embedding predictive Architecture)は、最近、マスク戦略の下でラベルのない画像から視覚的表現を抽出する際、顕著な結果を示した。 しかし、その欠点、特に局所的な意味論の理解が不十分であることを明らかにする。 この欠損は、埋め込み空間におけるマスク付きモデリングに起因し、識別力の低下を招き、批判的な局所的意味論を無視することさえできる。 このギャップを埋めるために,JEPAに根ざした新しいマスク付きモデリング対象であるDMT-JEPAを導入する。 我々は、セマンティックに類似した隣接パッチのセットを、マスクされたパッチのターゲットとみなす。 具体的には、DMT-JEPAを提案する。 (a)各マスキングパッチとその隣接するパッチの類似性を計算し、意味論的意味を持つパッチを選択する。 b) マスク対象として隣接するパッチの特徴を集約するために,軽量なクロスアテンションヘッドを用いる。 その結果、DMT-JEPAは強力な差別力を示し、下流の様々なタスクに利益をもたらす。 広範囲な実験を通じて、ImageNet-1K画像分類、ADE20Kセマンティックセグメンテーション、COCOオブジェクト検出タスクなど、様々な視覚的ベンチマークにおける有効性を示す。 コードは: \url{https://github.com/DMTJEPA/DMTJEPA}で入手できる。

The joint-embedding predictive architecture (JEPA) recently has shown impressive results in extracting visual representations from unlabeled imagery under a masking strategy. However, we reveal its disadvantages, notably its insufficient understanding of local semantics. This deficiency originates from masked modeling in the embedding space, resulting in a reduction of discriminative power and can even lead to the neglect of critical local semantics. To bridge this gap, we introduce DMT-JEPA, a novel masked modeling objective rooted in JEPA, specifically designed to generate discriminative latent targets from neighboring information. Our key idea is simple: we consider a set of semantically similar neighboring patches as a target of a masked patch. To be specific, the proposed DMT-JEPA (a) computes feature similarities between each masked patch and its corresponding neighboring patches to select patches having semantically meaningful relations, and (b) employs lightweight cross-attention heads to aggregate features of neighboring patches as the masked targets. Consequently, DMT-JEPA demonstrates strong discriminative power, offering benefits across a diverse spectrum of downstream tasks. Through extensive experiments, we demonstrate our effectiveness across various visual benchmarks, including ImageNet-1K image classification, ADE20K semantic segmentation, and COCO object detection tasks. Code is available at: \url{https://github.com/DMTJEPA/DMTJEPA}.
翻訳日:2024-05-29 19:18:23 公開日:2024-05-28
# Source Echo Chamber: ユーザ、データ、リコメンダシステムのフィードバックループにおけるソースバイアスのエスカレーションを探る

Source Echo Chamber: Exploring the Escalation of Source Bias in User, Data, and Recommender System Feedback Loop ( http://arxiv.org/abs/2405.17998v1 )

ライセンス: Link先を確認
Yuqi Zhou, Sunhao Dai, Liang Pang, Gang Wang, Zhenhua Dong, Jun Xu, Ji-Rong Wen, (参考訳) 近年、ニューラル検索モデルがAIGC(source bias)というAI生成コンテンツを好むことが発見されている。 アクティブな検索行動と比較して、リコメンデーションは、ユーザがソースバイアスを受ける傾向にある情報取得の別の重要な手段である。 さらに、AIGCがユーザ、データ、レコメンダシステムを含むフィードバックループに統合されるにつれて、候補項目、ユーザインタラクション履歴、最終的にはレコメンデーションモデルをトレーニングするために使用されるデータを徐々に汚染する。 フィードバックループ内のニューラルレコメンデーションモデルにソースバイアスがどのように影響するかは、まだ不明である。 本研究では,フィードバックループの異なる位相にまたがる影響について検討する。 我々は,AIGCの推奨コンテンツエコシステムへの統合の進展を,HGCが支配する3つの相,HGC-AIGCが共存する相,AIGCが支配する過去,現在,未来状態の3つの相で概念化する。 多様な領域からの3つのデータセットにわたる広範な実験を通じて、ソースバイアスの頻度を実証し、フィードバックループ全体を通してソースバイアスを増幅した潜在的なデジタルエコーチャンバーを明らかにする。 この傾向は、AIGCのような限られた情報ソースが不均等に推奨される推奨エコシステムを作成するリスクがある。 このバイアスに対処し、フィードバックループにおけるエスカレーションを防止するため、HGCとAIGCの両方に対するモデル不均一性を維持するブラックボックスデバイアス法を導入する。 提案手法の有効性を実験的に検証し,フィードバックループの破壊の可能性を確認した。

Recently, researchers have uncovered that neural retrieval models prefer AI-generated content (AIGC), called source bias. Compared to active search behavior, recommendation represents another important means of information acquisition, where users are more prone to source bias. Furthermore, delving into the recommendation scenario, as AIGC becomes integrated within the feedback loop involving users, data, and the recommender system, it progressively contaminates the candidate items, the user interaction history, and ultimately, the data used to train the recommendation models. How and to what extent the source bias affects the neural recommendation models within feedback loop remains unknown. In this study, we extend the investigation of source bias into the realm of recommender systems, specifically examining its impact across different phases of the feedback loop. We conceptualize the progression of AIGC integration into the recommendation content ecosystem in three distinct phases-HGC dominate, HGC-AIGC coexist, and AIGC dominance-each representing past, present, and future states, respectively. Through extensive experiments across three datasets from diverse domains, we demonstrate the prevalence of source bias and reveal a potential digital echo chamber with source bias amplification throughout the feedback loop. This trend risks creating a recommender ecosystem with limited information source, such as AIGC, being disproportionately recommended. To counteract this bias and prevent its escalation in the feedback loop, we introduce a black-box debiasing method that maintains model impartiality towards both HGC and AIGC. Our experimental results validate the effectiveness of the proposed debiasing method, confirming its potential to disrupt the feedback loop.
翻訳日:2024-05-29 19:18:23 公開日:2024-05-28
# MAVIN:遷移ビデオ埋込による拡散モデルによるマルチアクションビデオ生成

MAVIN: Multi-Action Video Generation with Diffusion Models via Transition Video Infilling ( http://arxiv.org/abs/2405.18003v1 )

ライセンス: Link先を確認
Bowen Zhang, Xiaofei Xie, Haotian Lu, Na Ma, Tianlin Li, Qing Guo, (参考訳) 拡散に基づくビデオ生成は大きな進歩を遂げているが、連続的に発生する複数のアクションを生成することは恐ろしい作業である。 微粒なアクションアノテーションの不足や、時間的意味的対応の確立や長期的一貫性の維持が難しいため、シーケンシャルなアクションでビデオを直接生成することは極めて困難である。 そこで本研究では,複数のシングルアクションビデオセグメントを逐次スプライシングする,直感的で直感的な手法を提案する。 中心となる課題は、これらのセグメント間の滑らかで自然な遷移を生成することである。 我々は、2つの動画をシームレスに接続する遷移ビデオを生成するためのMAVIN(Multi-Action Video Infilling model)を提案する。 MAVINは、トランジションビデオの埋め合わせタスクにおける課題に対処するために、いくつかの革新的なテクニックを取り入れている。 まず, 可変長サンプリングを併用した連続ノイズ発生戦略を用いて, 大きな埋込みギャップと様々な生成長を処理した。 次に、遷移生成における意味的ガイダンスの欠如に対処するため、境界フレームガイダンス(BFG)を提案する。 最後に、ガウスフィルタミキサー(GFM)は、推論中のノイズ初期化を動的に管理し、生成柔軟性を保ちながら、列車試験の相違を緩和する。 さらに,従来の品質基準を補完し,時間的コヒーレンスと滑らかさを評価するために,CLIP-RS(CLIP Relative Smoothness)を導入した。 馬とトラのシナリオに関する実験結果は,MAVINが既存の手法と比較してスムーズでコヒーレントな映像遷移を発生させる上で,優れた性能を示した。

Diffusion-based video generation has achieved significant progress, yet generating multiple actions that occur sequentially remains a formidable task. Directly generating a video with sequential actions can be extremely challenging due to the scarcity of fine-grained action annotations and the difficulty in establishing temporal semantic correspondences and maintaining long-term consistency. To tackle this, we propose an intuitive and straightforward solution: splicing multiple single-action video segments sequentially. The core challenge lies in generating smooth and natural transitions between these segments given the inherent complexity and variability of action transitions. We introduce MAVIN (Multi-Action Video INfilling model), designed to generate transition videos that seamlessly connect two given videos, forming a cohesive integrated sequence. MAVIN incorporates several innovative techniques to address challenges in the transition video infilling task. Firstly, a consecutive noising strategy coupled with variable-length sampling is employed to handle large infilling gaps and varied generation lengths. Secondly, boundary frame guidance (BFG) is proposed to address the lack of semantic guidance during transition generation. Lastly, a Gaussian filter mixer (GFM) dynamically manages noise initialization during inference, mitigating train-test discrepancy while preserving generation flexibility. Additionally, we introduce a new metric, CLIP-RS (CLIP Relative Smoothness), to evaluate temporal coherence and smoothness, complementing traditional quality-based metrics. Experimental results on horse and tiger scenarios demonstrate MAVIN's superior performance in generating smooth and coherent video transitions compared to existing methods.
翻訳日:2024-05-29 19:18:23 公開日:2024-05-28
# SkinCAP: リッチメディカルキャプションを付加したマルチモーダル皮膚科学データセット

SkinCAP: A Multi-modal Dermatology Dataset Annotated with Rich Medical Captions ( http://arxiv.org/abs/2405.18004v1 )

ライセンス: Link先を確認
Juexiao Zhou, Liyuan Sun, Yan Xu, Wenbin Liu, Shawn Afvari, Zhongyi Han, Jiaoyan Song, Yongzhi Ji, Xiaonan He, Xin Gao, (参考訳) 人工知能(AI)、特に深層学習(DL)や視覚に基づく大規模言語モデル(VLLM)の皮膚疾患診断への応用により、解釈可能性の必要性が重要となる。 しかしながら、既存の皮膚科学データセットは概念レベルのメタラベルを含めることに制限があり、自然言語で豊富な医学的記述を提供するものはない。 この欠損は皮膚科診断におけるLSM法の発展を阻害する。 このギャップに対処し、包括的自然言語記述を伴う微妙に注釈付けされた皮膚科学データセットを提供するために、リッチな医療キャプションを付加したマルチモーダル皮膚学データセットであるSkinCAPを紹介した。 SkinCAP は Fitzpatrick 17k skin disease データセットと Diverse Dermatology Images データセットから得られた4,000枚の画像で構成されており、ボード認証された皮膚科医によって注釈され、医学的な記述やキャプションを提供する。 特に、SkinCAPは世界初のそのようなデータセットであり、https://huggingface.co/datasets/joshuachou/SkinCAPで公開されている。

With the widespread application of artificial intelligence (AI), particularly deep learning (DL) and vision-based large language models (VLLMs), in skin disease diagnosis, the need for interpretability becomes crucial. However, existing dermatology datasets are limited in their inclusion of concept-level meta-labels, and none offer rich medical descriptions in natural language. This deficiency impedes the advancement of LLM-based methods in dermatological diagnosis. To address this gap and provide a meticulously annotated dermatology dataset with comprehensive natural language descriptions, we introduce SkinCAP: a multi-modal dermatology dataset annotated with rich medical captions. SkinCAP comprises 4,000 images sourced from the Fitzpatrick 17k skin disease dataset and the Diverse Dermatology Images dataset, annotated by board-certified dermatologists to provide extensive medical descriptions and captions. Notably, SkinCAP represents the world's first such dataset and is publicly available at https://huggingface.co/datasets/joshuachou/SkinCAP.
翻訳日:2024-05-29 19:18:23 公開日:2024-05-28
# 海洋音響における構造行列のブロック符号化のための量子回路

Quantum circuits for block encoding of structured matrices in ocean acoustics ( http://arxiv.org/abs/2405.18007v1 )

ライセンス: Link先を確認
Chunlin Yang, Hongmei Yao, Guofeng Zhang, Zhaobing Fan, Zexian Li, Jianshe Liu, (参考訳) ブロック符号化は、量子コンピュータで一般的に使用されるデータ入力モデルである。 これは、行列 $A$ が $\left\|A\right\| \leq 1$ をより大きなユニタリ行列 $U_{A}$ に埋め込むテクニックである。 海洋音響学における一般化固有値方程式から生じる特別な構造行列について考察する。 我々はブロック符号化方式を開発し、さらに改良し、その結果、サブ正規化が減少する。 また、構造化行列に対するブロック符号化の量子回路の構築方法について論じる。 ブロック符号化方式の実現可能性を示すために,2つの数値例を用いた。 また、量子回路の対応する符号を \verb|MATLAB| で示す。

Block encoding is a data input model commonly used in a quantum computer. It is a technique that embeds a matrix $A$ satisfying $\left\|A\right\| \leq 1$ into a larger unitary matrix $U_{A}$. We consider special structured matrices arising from generalized eigenvalue equations in ocean acoustics. We develop their block encoding scheme and further improve it which results lower subnormalisations. And we discuss how to construct quantum circuits of block encoding for the structured matrices. Two numerical examples are used to illustrate the feasibility of our block encoding schemes. The corresponding codes of the quantum circuits in \verb|MATLAB| are also presented.
翻訳日:2024-05-29 19:18:23 公開日:2024-05-28
# 分解位置ベクトルによる大規模言語モデルのコンテキストウィンドウの探索

Exploring Context Window of Large Language Models via Decomposed Positional Vectors ( http://arxiv.org/abs/2405.18009v1 )

ライセンス: Link先を確認
Zican Dong, Junyi Li, Xin Men, Wayne Xin Zhao, Bingbing Wang, Zhen Tian, Weipeng Chen, Ji-Rong Wen, (参考訳) Transformer-based large language model (LLM) は通常、コンテキストウィンドウに制限があるため、コンテキストウィンドウの長さを超えてテキストを処理する場合、パフォーマンスが大幅に低下する。 コンテキストウィンドウを拡張し、LLMの長さの外挿を実現するための広範な研究が提案されているが、これらのアプローチの詳細な解釈はいまだに存在しない。 本研究では,LLMの基盤となるメカニズムを解明するためのコンテキストウィンドウ内外の位置情報について検討する。 平均分解法を用いて,LLMの隠れ状態から位置ベクトルを遠ざけ,その形成と注意への影響を解析した。 さらに,テキストがコンテキストウインドウを超えた場合,直接補間とコンテキストウインドウ拡張という2つの設定で位置ベクトルの変化を分析する。 本研究は,2つの学習自由コンテキストウィンドウ拡張法,位置ベクトル置換法,注目ウィンドウ拡張法を設計した。 実験の結果,提案手法はコンテキストウィンドウ長を効果的に拡張できることがわかった。

Transformer-based large language models (LLMs) typically have a limited context window, resulting in significant performance degradation when processing text beyond the length of the context window. Extensive studies have been proposed to extend the context window and achieve length extrapolation of LLMs, but there is still a lack of in-depth interpretation of these approaches. In this study, we explore the positional information within and beyond the context window for deciphering the underlying mechanism of LLMs. By using a mean-based decomposition method, we disentangle positional vectors from hidden states of LLMs and analyze their formation and effect on attention. Furthermore, when texts exceed the context window, we analyze the change of positional vectors in two settings, i.e., direct extrapolation and context window extension. Based on our findings, we design two training-free context window extension methods, positional vector replacement and attention window extension. Experimental results show that our methods can effectively extend the context window length.
翻訳日:2024-05-29 19:18:23 公開日:2024-05-28
# 弱教師付きグループ活動認識のためのフロー支援型運動学習ネットワーク

Flow-Assisted Motion Learning Network for Weakly-Supervised Group Activity Recognition ( http://arxiv.org/abs/2405.18012v1 )

ライセンス: Link先を確認
Muhammad Adi Nugroho, Sangmin Woo, Sumin Lee, Jinyoung Park, Yooseung Wang, Donguk Kim, Changick Kim, (参考訳) Weakly-Supervised Group Activity Recognition (WSGAR) は、ビデオレベルラベルを持つ個人とアクターレベルラベルを持たない個人のグループが一緒に行う活動を理解することを目的としている。 本稿では、アクターの特徴を抽出する動き認識型アクターエンコーダと、アクター間の相互作用とアクティビティを推測する双方向関連モジュールからなるWSGARのためのフロー支援モーションラーニングネットワーク(Flaming-Net)を提案する。 Flaming-Netは、トレーニング段階での光学的フローのモダリティを活用して、局所的に活動的なアクターを見つける際の運動意識を高める。 リレーションモジュールの最初の経路であるアクター中心のパスは、まず個々のアクターの時間的ダイナミクスを捉え、それからアクター間の関係を構築する。 並行して、グループ中心のパスは、アクター間の空間的接続を同じ時間枠内で構築し、同時に時空間の時空間的ダイナミクスをキャプチャすることから始まる。 我々は、NBAデータセットの2.8%のMPCAスコアを含む2つのベンチマークで、Flaming-Netが最先端のWSGARの新たな結果を達成することを実証した。 重要なことは、光学フローのモダリティはトレーニングにのみ使用し、推論には使用しないということです。

Weakly-Supervised Group Activity Recognition (WSGAR) aims to understand the activity performed together by a group of individuals with the video-level label and without actor-level labels. We propose Flow-Assisted Motion Learning Network (Flaming-Net) for WSGAR, which consists of the motion-aware actor encoder to extract actor features and the two-pathways relation module to infer the interaction among actors and their activity. Flaming-Net leverages an additional optical flow modality in the training stage to enhance its motion awareness when finding locally active actors. The first pathway of the relation module, the actor-centric path, initially captures the temporal dynamics of individual actors and then constructs inter-actor relationships. In parallel, the group-centric path starts by building spatial connections between actors within the same timeframe and then captures simultaneous spatio-temporal dynamics among them. We demonstrate that Flaming-Net achieves new state-of-the-art WSGAR results on two benchmarks, including a 2.8%p higher MPCA score on the NBA dataset. Importantly, we use the optical flow modality only for training and not for inference.
翻訳日:2024-05-29 19:18:23 公開日:2024-05-28
# 結合型マンバ:結合状態空間モデルによる多モード核融合

Coupled Mamba: Enhanced Multi-modal Fusion with Coupled State Space Model ( http://arxiv.org/abs/2405.18014v1 )

ライセンス: Link先を確認
Wenbing Li, Hang Zhou, Zikai Song, Wei Yang, (参考訳) マルチモーダル融合の本質は、様々なモダリティに固有の相補的な情報を活用することである。 しかし、一般的な融合法は従来のニューラルアーキテクチャに依存しており、特に複雑なモダリティ内およびモダリティ間相関の存在下で、モダリティ間の相互作用のダイナミクスを捉えるには不十分である。 近年のステート・スペース・モデル(SSM)の進歩は、特にマンバ・モデルによって実証されたものであり、有望な候補として現れている。 特に、その状態の進化過程は、より強力なモダリティ融合パラダイムを示し、SSM上のマルチモーダル融合を魅力的な方向とする。 しかし、ハードウェアを意識した並列設計のため、複数のモダリティを融合することはSSMにとって困難である。 そこで本研究では,複数モードの状態連鎖を結合し,モダリティ内状態プロセスの独立性を維持しつつ結合する結合型SSMモデルを提案する。 具体的には、本手法では、現在の状態が前段階の鎖の状態と隣鎖の状態に依存するモード間隠れ状態遷移スキームを考案する。 ハードウェアを意識した並列性に完全に準拠するため,並列性を実現するために,高速結合状態遷移方式を考案し,対応するグローバル畳み込みカーネルを導出する。 マルチドメイン入力によるCMU-MOSEI,CH-SIMS,CH-SIMSV2の大規模な実験により,現在の最先端手法と比較して,F1-Scoreをそれぞれ0.4\%,0.9\%,2.3\%,推論が49\%,GPUメモリが83.7\%向上した。 その結果,結合マンバモデルではマルチモーダル核融合が可能であることが示された。

The essence of multi-modal fusion lies in exploiting the complementary information inherent in diverse modalities. However, prevalent fusion methods rely on traditional neural architectures and are inadequately equipped to capture the dynamics of interactions across modalities, particularly in presence of complex intra- and inter-modality correlations. Recent advancements in State Space Models (SSMs), notably exemplified by the Mamba model, have emerged as promising contenders. Particularly, its state evolving process implies stronger modality fusion paradigm, making multi-modal fusion on SSMs an appealing direction. However, fusing multiple modalities is challenging for SSMs due to its hardware-aware parallelism designs. To this end, this paper proposes the Coupled SSM model, for coupling state chains of multiple modalities while maintaining independence of intra-modality state processes. Specifically, in our coupled scheme, we devise an inter-modal hidden states transition scheme, in which the current state is dependent on the states of its own chain and that of the neighbouring chains at the previous time-step. To fully comply with the hardware-aware parallelism, we devise an expedite coupled state transition scheme and derive its corresponding global convolution kernel for parallelism. Extensive experiments on CMU-MOSEI, CH-SIMS, CH-SIMSV2 through multi-domain input verify the effectiveness of our model compared to current state-of-the-art methods, improved F1-Score by 0.4\%, 0.9\%, and 2.3\% on the three datasets respectively, 49\% faster inference and 83.7\% GPU memory save. The results demonstrate that Coupled Mamba model is capable of enhanced multi-modal fusion.
翻訳日:2024-05-29 19:18:23 公開日:2024-05-28
# MultiADE: 逆ドラッグイベント抽出のためのマルチドメインベンチマーク

MultiADE: A Multi-domain Benchmark for Adverse Drug Event Extraction ( http://arxiv.org/abs/2405.18015v1 )

ライセンス: Link先を確認
Xiang Dai, Sarvnaz Karimi, Abeed Sarker, Ben Hachey, Cecile Paris, (参考訳) 目的。 アクティブな有害事象監視は、電子健康記録、医療文献、ソーシャルメディア、検索エンジンログなど、さまざまなデータソースからの逆薬物イベント(ADE)を監視する。 長年にわたって多くのデータセットが作成され、アクティブな有害事象監視を促進するために共有タスクが編成されている。 しかし、ほとんどの場合、全データセットや共有タスクは、特定のタイプのテキストからADEを抽出することに焦点を当てている。 ドメインの一般化 - 機械学習モデルが、新しい、見えないドメイン(テキストタイプ)でうまく機能する能力は、未調査である。 自然言語処理の急速な進歩を考えると、科学文献やソーシャルメディア投稿など、さまざまな種類のテキストに有効なADE抽出モデルが1つあることから、どこまで遠いのか、という疑問が浮かび上がっている。 メソッド。 我々は,MultiADEと名付けた有害薬物イベント抽出のためのマルチドメインベンチマークを構築することで,この問題に対処することに貢献する。 新しいベンチマークは、異なるテキストタイプからサンプリングされたいくつかの既存のデータセットと、CADEC(Karimi, et al , 2015)の拡張である新しく作成されたデータセットCADECv2で構成され、CADECよりも多様な薬物に関するオンライン投稿をカバーしている。 我々の新しいデータセットは、詳細なアノテーションガイドラインに従って、人間のアノテーションによって慎重に注釈付けされます。 結論。 ベンチマークの結果、トレーニングされたモデルの一般化は完璧には程遠いことを示し、異なるタイプのテキストを処理するためにデプロイすることは不可能である。 さらに、中間転写学習は既存のリソースを活用するための有望なアプローチであるが、ドメイン適応の手法、特に有用なトレーニングインスタンスを選択するための費用対効果に関するさらなる調査が必要である。

Objective. Active adverse event surveillance monitors Adverse Drug Events (ADE) from different data sources, such as electronic health records, medical literature, social media and search engine logs. Over years, many datasets are created, and shared tasks are organised to facilitate active adverse event surveillance. However, most-if not all-datasets or shared tasks focus on extracting ADEs from a particular type of text. Domain generalisation-the ability of a machine learning model to perform well on new, unseen domains (text types)-is under-explored. Given the rapid advancements in natural language processing, one unanswered question is how far we are from having a single ADE extraction model that are effective on various types of text, such as scientific literature and social media posts}. Methods. We contribute to answering this question by building a multi-domain benchmark for adverse drug event extraction, which we named MultiADE. The new benchmark comprises several existing datasets sampled from different text types and our newly created dataset-CADECv2, which is an extension of CADEC (Karimi, et al., 2015), covering online posts regarding more diverse drugs than CADEC. Our new dataset is carefully annotated by human annotators following detailed annotation guidelines. Conclusion. Our benchmark results show that the generalisation of the trained models is far from perfect, making it infeasible to be deployed to process different types of text. In addition, although intermediate transfer learning is a promising approach to utilising existing resources, further investigation is needed on methods of domain adaptation, particularly cost-effective methods to select useful training instances.
翻訳日:2024-05-29 19:18:23 公開日:2024-05-28
# 創造性とオープンエンデドネスについて

On Creativity and Open-Endedness ( http://arxiv.org/abs/2405.18016v1 )

ライセンス: Link先を確認
Lisa Soros, Alyssa Adams, Stefano Kalonaris, Olaf Witkowski, Christian Guckelsberger, (参考訳) 学際的な分野としての人工生命(ALife)は、様々な視点からインスピレーションと影響を引き出す。 科学の進歩は、学際的な対話を招こうとする共同努力に大きく依存する。 本研究の目的は、オープンエンデドネス(OE)の概念に特化して、計算創造性(CC)とALifeの潜在的な関連性に関する議論を活性化することであり、CCの主な目的は、人工システムに創造性を持たせることであり、ALifeはOEと人工イノベーションの研究・合成に多くの研究努力を注いでいる。 しかし、これらの概念が近接しているにも関わらず、それらの使用はそれぞれのコミュニティに限られており、その関係は概ね不明である。 両領域の研究に歴史的文脈を提供し、創造性研究とOEを明示的に結びつける限定的な研究を概観する。 次に、検討すべき特定の質問と、最終的な目標を強調します。 (i)OEの概念の類似点と相違点を強調することにより概念の曖昧さを減少させる。 2OEと創造性の両方を包含する研究課題の相乗効果の識別及び 3ALifeとCC研究の対話を確立すること。

Artificial Life (ALife) as an interdisciplinary field draws inspiration and influence from a variety of perspectives. Scientific progress crucially depends, then, on concerted efforts to invite cross-disciplinary dialogue. The goal of this paper is to revitalize discussions of potential connections between the fields of Computational Creativity (CC) and ALife, focusing specifically on the concept of Open-Endedness (OE); the primary goal of CC is to endow artificial systems with creativity, and ALife has dedicated much research effort into studying and synthesizing OE and artificial innovation. However, despite the close proximity of these concepts, their use so far remains confined to their respective communities, and their relationship is largely unclear. We provide historical context for research in both domains, and review the limited work connecting research on creativity and OE explicitly. We then highlight specific questions to be considered, with the eventual goals of (i) decreasing conceptual ambiguity by highlighting similarities and differences between the concepts of OE, (ii) identifying synergy effects of a research agenda that encompasses both OE and creativity, and (iii) establishing a dialogue between ALife and CC research.
翻訳日:2024-05-29 19:18:23 公開日:2024-05-28
# 屈折型水中視覚の校正ツール

A Calibration Tool for Refractive Underwater Vision ( http://arxiv.org/abs/2405.18018v1 )

ライセンス: Link先を確認
Felix Seegräber, Mengkun She, Felix Woelk, Kevin Köser, (参考訳) 多くの水中ロボットアプリケーションは、画像中の各ピクセルの入射光線を知るために、適切なカメラキャリブレーションを必要とする。 理想的なピンホールカメラモデルでは、すべての視線が1つの3Dポイントで交差するが、水中カメラは水、ガラス、空気の界面で複数の光線の屈折に悩まされている。 これらの方向の変化は、防水ハウジング内のカメラの位置と方向、および光学窓、ポート自体の形状と特性に依存する。 近年、フラットポートやドームポートなどの共通ポートの背後にある水中視力の明確なモデルが提案されているが、水中のコミュニティでは、屈折校正によってポートパラメータを決定するための校正ツールがまだない。 この作業により、水中屈折型カメラキャリブレーションツールボックスの最初のオープンソース実装を提供する。 ドームや平らなポートを持つシステムに対して、カメラ、ステレオ、住宅のキャリブレーションを含む水中視覚システムのエンドツーエンドのキャリブレーションを可能にする。 この実装は、レンダリングデータセットと実世界の実験を用いて検証される。

Many underwater robotic applications relying on vision sensors require proper camera calibration, i.e. knowing the incoming light ray for each pixel in the image. While for the ideal pinhole camera model all viewing rays intersect in a single 3D point, underwater cameras suffer from - possibly multiple - refractions of light rays at the interfaces of water, glass and air. These changes of direction depend on the position and orientation of the camera inside the water-proof housing, as well as on the shape and properties of the optical window, the port, itself. In recent years explicit models for underwater vision behind common ports such as flat or dome port have been proposed, but the underwater community is still lacking a calibration tool which can determine port parameters through refractive calibration. With this work we provide the first open source implementation of an underwater refractive camera calibration toolbox. It allows end-to-end calibration of underwater vision systems, including camera, stereo and housing calibration for systems with dome or flat ports. The implementation is verified using rendered datasets and real-world experiments.
翻訳日:2024-05-29 19:18:23 公開日:2024-05-28
# MULi-Ev: 未成熟のLiDARイベントキャリブレーションを維持する

MULi-Ev: Maintaining Unperturbed LiDAR-Event Calibration ( http://arxiv.org/abs/2405.18021v1 )

ライセンス: Link先を確認
Mathieu Cocheteux, Julien Moreau, Franck Davoine, (参考訳) 自動運転車の認識システム向上への関心が高まっているにもかかわらず、イベントカメラとLiDARのオンライン校正は、包括的な環境情報の収集に重要な2つのセンサーである。 MULi-Evは、LiDARによるイベントカメラの外部キャリブレーションに適した、初めてのオンラインディープラーニングベースのフレームワークである。 この進歩はLiDARとイベントカメラのシームレスな統合に役立ち、様々な運用条件下で最適なセンサーアライメントを維持するのに不可欠な動的リアルタイムキャリブレーション調整を可能にする。 DSECデータセットで提示された現実シナリオに対して厳格に評価されているMULi-Evは、キャリブレーション精度を大幅に向上するだけでなく、モバイルプラットフォームにおけるイベントカメラとLiDARを統合するための新しい標準も設定している。 われわれはMULi-Evが、自動運転におけるイベントベースの認識システムの安全性、信頼性、全体的な性能を向上する可能性を明らかにした。

Despite the increasing interest in enhancing perception systems for autonomous vehicles, the online calibration between event cameras and LiDAR - two sensors pivotal in capturing comprehensive environmental information - remains unexplored. We introduce MULi-Ev, the first online, deep learning-based framework tailored for the extrinsic calibration of event cameras with LiDAR. This advancement is instrumental for the seamless integration of LiDAR and event cameras, enabling dynamic, real-time calibration adjustments that are essential for maintaining optimal sensor alignment amidst varying operational conditions. Rigorously evaluated against the real-world scenarios presented in the DSEC dataset, MULi-Ev not only achieves substantial improvements in calibration accuracy but also sets a new standard for integrating LiDAR with event cameras in mobile platforms. Our findings reveal the potential of MULi-Ev to bolster the safety, reliability, and overall performance of event-based perception systems in autonomous driving, marking a significant step forward in their real-world deployment and effectiveness.
翻訳日:2024-05-29 19:18:23 公開日:2024-05-28
# パーソナライズされたセグメンテーションと検索のための拡散特徴のパワーの解放

Unveiling the Power of Diffusion Features For Personalized Segmentation and Retrieval ( http://arxiv.org/abs/2405.18025v1 )

ライセンス: Link先を確認
Dvir Samuel, Rami Ben-Ari, Matan Levy, Nir Darshan, Gal Chechik, (参考訳) パーソナライズされた検索とセグメンテーションは、入力画像と参照インスタンスの短い記述に基づいて、データセット内の特定のインスタンスを特定することを目的としている。 教師付き手法は効果的であるが、トレーニングには広範なラベル付きデータが必要である。 近年, 自己教師付き基礎モデルがこれらのタスクに導入され, 教師付き手法に匹敵する結果が得られた。 しかし、これらのモデルの重大な欠陥は明らかであり、同じクラス内の他のインスタンスが提示されたときに、望ましいインスタンスを見つけるのに苦労している。 本稿では,これらの課題に対するテキスト・画像拡散モデルについて検討する。 具体的には, PDM for Personalized Features Diffusion Matching という新たな手法を提案する。 PDMは一般的な検索とセグメンテーションのベンチマークにおいて優れた性能を示し、教師付き手法よりも優れている。 また、現在のインスタンスとセグメンテーションデータセットの顕著な欠点を強調し、これらのタスクのための新しいベンチマークを提案する。

Personalized retrieval and segmentation aim to locate specific instances within a dataset based on an input image and a short description of the reference instance. While supervised methods are effective, they require extensive labeled data for training. Recently, self-supervised foundation models have been introduced to these tasks showing comparable results to supervised methods. However, a significant flaw in these models is evident: they struggle to locate a desired instance when other instances within the same class are presented. In this paper, we explore text-to-image diffusion models for these tasks. Specifically, we propose a novel approach called PDM for Personalized Features Diffusion Matching, that leverages intermediate features of pre-trained text-to-image models for personalization tasks without any additional training. PDM demonstrates superior performance on popular retrieval and segmentation benchmarks, outperforming even supervised methods. We also highlight notable shortcomings in current instance and segmentation datasets and propose new benchmarks for these tasks.
翻訳日:2024-05-29 19:08:25 公開日:2024-05-28
# TimeChara:ロールプレイング大言語モデルのポイント・イン・タイムキャラクタの幻覚評価

TimeChara: Evaluating Point-in-Time Character Hallucination of Role-Playing Large Language Models ( http://arxiv.org/abs/2405.18027v1 )

ライセンス: Link先を確認
Jaewoo Ahn, Taehyun Lee, Junyoung Lim, Jin-Hwa Kim, Sangdoo Yun, Hwaran Lee, Gunhee Kim, (参考訳) 大規模言語モデル(LLM)は人間の行動(例えばロールプレイングエージェント)をシミュレートするエージェントとして機能するが、ポイントインタイムロールプレイングの重要性を強調している。 これは、物語の進行の特定の瞬間の登場人物を3つの主な理由から定めている。 (i)利用者の物語の没入感を高めること。 (二)スポイラーを避けて、 (三)ファンダムロールプレイングにおけるエンゲージメントの育成。 特定の時点の文字を正確に表現するためには、エージェントは文字幻覚を避ける必要がある。 我々は,ロールプレイング LLM におけるポイントインタイムキャラクタ幻覚を評価するための新しいベンチマーク TimeChara を紹介する。 自動パイプラインを通じて生成される10,895のインスタンスを補完するこのベンチマークは、現在の最先端のLCM(例えば、GPT-4o)において、重大な幻覚の問題を明らかにする。 この課題に対処するため,ナラティブ・エクササイズ (Narrative-Experts) を提案する。 しかし、TimeCharaによる我々の発見は、現在進行中のポイント・イン・タイム・キャラクタ幻覚の課題を強調し、さらなる研究を求めている。

While Large Language Models (LLMs) can serve as agents to simulate human behaviors (i.e., role-playing agents), we emphasize the importance of point-in-time role-playing. This situates characters at specific moments in the narrative progression for three main reasons: (i) enhancing users' narrative immersion, (ii) avoiding spoilers, and (iii) fostering engagement in fandom role-playing. To accurately represent characters at specific time points, agents must avoid character hallucination, where they display knowledge that contradicts their characters' identities and historical timelines. We introduce TimeChara, a new benchmark designed to evaluate point-in-time character hallucination in role-playing LLMs. Comprising 10,895 instances generated through an automated pipeline, this benchmark reveals significant hallucination issues in current state-of-the-art LLMs (e.g., GPT-4o). To counter this challenge, we propose Narrative-Experts, a method that decomposes the reasoning steps and utilizes narrative experts to reduce point-in-time character hallucinations effectively. Still, our findings with TimeChara highlight the ongoing challenges of point-in-time character hallucination, calling for further study.
翻訳日:2024-05-29 19:08:25 公開日:2024-05-28
# MEDIQA-CORR 2024におけるエディンバラ臨床NLP : ヒントを用いた大規模言語モデルの指導

Edinburgh Clinical NLP at MEDIQA-CORR 2024: Guiding Large Language Models with Hints ( http://arxiv.org/abs/2405.18028v1 )

ライセンス: Link先を確認
Aryo Pradipta Gema, Chaeeun Lee, Pasquale Minervini, Luke Daines, T. Ian Simpson, Beatrice Alex, (参考訳) MEDIQA-CORR 2024共有タスクは、臨床ノートにおける医療ミスの特定と修正のためのLarge Language Models(LLMs)の能力を評価することを目的としている。 本研究では,一般的なLCM(特にGPT-3.5とGPT-4)を用いて,複数のプロンプト戦略を用いて医療ミスを特定し,修正する能力について検討した。 LLMの精度の限界を認識して,より小型で微調整されたモデルからの誤差スパン予測を2つの方法で導入することを提案する。 1) 指示書のヒントとして提示し, 2) LLM が最適な修正を選択できる多重選択質問としてフレーミングする。 提案手法により,LLMの補正能力は大幅に向上した。 8ショット+CoT + ヒントによる最高のパフォーマンスのソリューションは、共有タスクのリーダーボードで6位です。 さらに, 誤り文の位置, 引き起こされた役割, 複数選択オプションの位置がLLMの精度に与える影響を包括的に分析した。 これにより、LLMが現実の臨床環境で実装される準備が整うかどうか、さらに疑問が持ち上がる。

The MEDIQA-CORR 2024 shared task aims to assess the ability of Large Language Models (LLMs) to identify and correct medical errors in clinical notes. In this study, we evaluate the capability of general LLMs, specifically GPT-3.5 and GPT-4, to identify and correct medical errors with multiple prompting strategies. Recognising the limitation of LLMs in generating accurate corrections only via prompting strategies, we propose incorporating error-span predictions from a smaller, fine-tuned model in two ways: 1) by presenting it as a hint in the prompt and 2) by framing it as multiple-choice questions from which the LLM can choose the best correction. We found that our proposed prompting strategies significantly improve the LLM's ability to generate corrections. Our best-performing solution with 8-shot + CoT + hints ranked sixth in the shared task leaderboard. Additionally, our comprehensive analyses show the impact of the location of the error sentence, the prompted role, and the position of the multiple-choice option on the accuracy of the LLM. This prompts further questions about the readiness of LLM to be implemented in real-world clinical settings.
翻訳日:2024-05-29 19:08:25 公開日:2024-05-28
# 画像の分布は分類器と区別できないか?

Are Image Distributions Indistinguishable to Humans Indistinguishable to Classifiers? ( http://arxiv.org/abs/2405.18029v1 )

ライセンス: Link先を確認
Zebin You, Xinyu Zhang, Hanzhong Guo, Jingdong Wang, Chongxuan Li, (参考訳) 生成モデルの最終的な目標は、データの分散を完全に特徴づけることである。 画像生成では、視覚的品質の一般的な指標(例えば、FID)と、生成した画像の人間の目への真実性は、その達成に近づいていることを示唆している。 しかし、分布分類タスクにより、ニューラルネットワークによってパラメータ化される分類器の視点では、最強拡散モデルがこの目標から程遠いことが分かる。 特に、分類器は、様々な設定において、実画像と生成画像とを一貫して、かつ、力ずくで区別する。 分類器は類似の性能を持つ拡散モデル(例: U-ViT-H vs. DiT-XL)の違いを識別するが、同じ家系の最小モデルと最大モデル(例: EDM2-XS vs. EDM2-XXL)の区別に苦労する。 説明として、我々の総合的な実証研究は、人間とは異なり、分類器は画像のエッジと高周波成分を分類する傾向があることを示唆している。 我々の方法論は、生成モデルがどのように機能するかを理解し、既存のモデルがどのように改善され、そのようなモデルの悪用が防げるかをより深く考えるための調査となると信じている。

The ultimate goal of generative models is to characterize the data distribution perfectly. For image generation, common metrics of visual quality (e.g., FID), and the truthlikeness of generated images to the human eyes seem to suggest that we are close to achieving it. However, through distribution classification tasks, we find that, in the eyes of classifiers parameterized by neural networks, the strongest diffusion models are still far from this goal. Specifically, classifiers consistently and effortlessly distinguish between real and generated images in various settings. Further, we observe an intriguing discrepancy: classifiers can identify differences between diffusion models with similar performance (e.g., U-ViT-H vs. DiT-XL), but struggle to differentiate between the smallest and largest models in the same family (e.g., EDM2-XS vs. EDM2-XXL), whereas humans exhibit the opposite tendency. As an explanation, our comprehensive empirical study suggests that, unlike humans, classifiers tend to classify images through edge and high-frequency components. We believe that our methodology can serve as a probe to understand how generative models work and inspire further thought on how existing models can be improved and how the abuse of such models can be prevented.
翻訳日:2024-05-29 19:08:25 公開日:2024-05-28
# 時変ネットワーク上の非平滑凸分散最適化のための下界と最適アルゴリズム

Lower Bounds and Optimal Algorithms for Non-Smooth Convex Decentralized Optimization over Time-Varying Networks ( http://arxiv.org/abs/2405.18031v1 )

ライセンス: Link先を確認
Dmitry Kovalev, Ekaterina Borodich, Alexander Gasnikov, Dmitrii Feoktistov, (参考訳) 通信ネットワークのノード間で分散的に格納された凸関数の総和を最小化するタスクについて検討する。 この問題は、目的関数が滑らかな場合や、ネットワークのリンクが時間内に固定されている場合、あるいはその両方において比較的よく研究されている。 特に、分散化された通信数と(サブ)漸進的な計算の下位境界が、一致する最適アルゴリズムと共に確立されている。 しかしながら、時間的変化のあるネットワーク上での非平滑な分散最適化の残りかつ最も困難な設定は、下限や最適アルゴリズムが文献で知られていないため、ほとんど探索されていない。 私たちは以下の貢献でこの根本的なギャップを解決します。 i) 時間変動ネットワーク上での非平滑凸分散最適化問題の解法において, 通信と下降計算の複雑さについて, 第一の下位境界を確立する。 (II)これらの下界に適合し,既存の最先端技術と比較して理論性能を著しく向上させる,最初の最適アルゴリズムを開発する。

We consider the task of minimizing the sum of convex functions stored in a decentralized manner across the nodes of a communication network. This problem is relatively well-studied in the scenario when the objective functions are smooth, or the links of the network are fixed in time, or both. In particular, lower bounds on the number of decentralized communications and (sub)gradient computations required to solve the problem have been established, along with matching optimal algorithms. However, the remaining and most challenging setting of non-smooth decentralized optimization over time-varying networks is largely underexplored, as neither lower bounds nor optimal algorithms are known in the literature. We resolve this fundamental gap with the following contributions: (i) we establish the first lower bounds on the communication and subgradient computation complexities of solving non-smooth convex decentralized optimization problems over time-varying networks; (ii) we develop the first optimal algorithm that matches these lower bounds and offers substantially improved theoretical performance compared to the existing state of the art.
翻訳日:2024-05-29 19:08:25 公開日:2024-05-28
# RT-GS2:Real-Time Generalizable Semantic Segmentation for 3D Gaussian Representations of Radiance Fields

RT-GS2: Real-Time Generalizable Semantic Segmentation for 3D Gaussian Representations of Radiance Fields ( http://arxiv.org/abs/2405.18033v1 )

ライセンス: Link先を確認
Mihnea-Bogdan Jurca, Remco Royen, Ion Giosan, Adrian Munteanu, (参考訳) ガウシアン・スプレイティングは、リアルタイムに高いレンダリング性能を達成することによって、新しいビュー合成の世界に革命をもたらした。 近年,下流タスクのセマンティック情報を用いた3次元表現の強化に焦点が当てられている。 本稿では,ガウススティングを用いた最初の一般化可能なセマンティックセマンティックセグメンテーション法であるRT-GS2を紹介する。 既存のガウスのSplattingベースのアプローチはシーン固有のトレーニングに依存しているが、RT-GS2は見えないシーンに一般化する能力を示している。 本稿では,ビュー非依存な3次元ガウス特徴を自己教師付きで抽出し,新しいビュー依存/ビュー非依存(VDVI)機能融合により,ビュー間のセマンティック一貫性を向上する手法を提案する。 3つの異なるデータセットに対する大規模な実験では、RT-GS2がセマンティックセグメンテーションの品質における最先端の手法よりも優れていることが示され、ReplicaデータセットではmIoUが8.01%増加した。 さらに,提案手法は27.03 FPSのリアルタイム性能を実現し,既存の手法に比べて901倍の高速化を実現している。 この研究は、我々の知る限り、放射場の3次元ガウス表現に対する初めてのリアルタイム一般化可能なセマンティックセマンティックセグメンテーション法を導入することで、この分野における重要な進歩を示している。

Gaussian Splatting has revolutionized the world of novel view synthesis by achieving high rendering performance in real-time. Recently, studies have focused on enriching these 3D representations with semantic information for downstream tasks. In this paper, we introduce RT-GS2, the first generalizable semantic segmentation method employing Gaussian Splatting. While existing Gaussian Splatting-based approaches rely on scene-specific training, RT-GS2 demonstrates the ability to generalize to unseen scenes. Our method adopts a new approach by first extracting view-independent 3D Gaussian features in a self-supervised manner, followed by a novel View-Dependent / View-Independent (VDVI) feature fusion to enhance semantic consistency over different views. Extensive experimentation on three different datasets showcases RT-GS2's superiority over the state-of-the-art methods in semantic segmentation quality, exemplified by a 8.01% increase in mIoU on the Replica dataset. Moreover, our method achieves real-time performance of 27.03 FPS, marking an astonishing 901 times speedup compared to existing approaches. This work represents a significant advancement in the field by introducing, to the best of our knowledge, the first real-time generalizable semantic segmentation method for 3D Gaussian representations of radiance fields.
翻訳日:2024-05-29 19:08:25 公開日:2024-05-28
# アスペクトベース感性分析のための検索型事例ランキングを用いた授業チューニング

Instruction Tuning with Retrieval-based Examples Ranking for Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2405.18035v1 )

ライセンス: Link先を確認
Guangmin Zheng, Jin Wang, Liang-Chih Yu, Xuejie Zhang, (参考訳) アスペクトベースの感情分析(ABSA)は、特定の側面に関連する感情情報を識別し、企業や組織に対してより深い市場洞察を提供する。 近年,大規模言語モデル (LM) の出現に伴い,ABSA を生成タスクとして再構成する命令チューニングの固定例が提案されている。 しかし,その性能はテキスト内サンプルの選択に敏感であり,複数の検索手法は表面類似性に基づいており,LM生成目的とは無関係である。 本研究では,ABSAタスクの検索に基づくサンプルランキングを用いた指導学習手法を提案する。 各対象試料に対して, LMをスコアラとして適用し, 入力された出力の確率とプロンプトとして候補例を推定し, トレーニング例をスコアのランク付けによって正または負のラベル付けを行った。 レトリバーとLMの両方をトレーニングするために、交互にトレーニングスキーマを提案する。 インストラクショナルプロンプトは高品質な例を使って構築することができる。 LMは、スコアリングと推論の両方に使用され、追加の計算コストや訓練困難を発生させることなく、生成効率を向上させる。 3つのABSAサブタスクの広範囲な実験により提案手法の有効性が検証され、様々な強力なベースラインモデルよりも優れていることが証明された。 コードとデータはhttps://anonymous.4open.science/r/IT-RER-ABSA-181Fで公開されている。

Aspect-based sentiment analysis (ABSA) identifies sentiment information related to specific aspects and provides deeper market insights to businesses and organizations. With the emergence of large language models (LMs), recent studies have proposed using fixed examples for instruction tuning to reformulate ABSA as a generation task. However, the performance is sensitive to the selection of in-context examples; several retrieval methods are based on surface similarity and are independent of the LM generative objective. This study proposes an instruction learning method with retrieval-based example ranking for ABSA tasks. For each target sample, an LM was applied as a scorer to estimate the likelihood of the output given the input and a candidate example as the prompt, and training examples were labeled as positive or negative by ranking the scores. An alternating training schema is proposed to train both the retriever and LM. Instructional prompts can be constructed using high-quality examples. The LM is used for both scoring and inference, improving the generation efficiency without incurring additional computational costs or training difficulties. Extensive experiments on three ABSA subtasks verified the effectiveness of the proposed method, demonstrating its superiority over various strong baseline models. Code and data are released at https://anonymous.4open.science/r/IT-RER-ABSA-181F.
翻訳日:2024-05-29 19:08:25 公開日:2024-05-28
# ForecastGrapher: グラフニューラルネットワークによる多変量時系列予測の再定義

ForecastGrapher: Redefining Multivariate Time Series Forecasting with Graph Neural Networks ( http://arxiv.org/abs/2405.18036v1 )

ライセンス: Link先を確認
Wanlin Cai, Kun Wang, Hao Wu, Xiaoxu Chen, Yuankai Wu, (参考訳) 多変量時系列予測のための系列間相関を効果的に学習することの課題は、大きな問題であり、未解決の問題である。 従来のディープラーニングモデルは、長いシーケンスをモデル化するためのTransformerパラダイムに大きく依存しているが、複数の時系列からの情報を一貫性のある普遍的なモデルに統合できないことが多い。 このギャップを埋めるために、我々はForecastGrapherというフレームワークを紹介した。このフレームワークは、ノード回帰タスクとして多変量時系列予測を再認識し、複雑な時間的ダイナミクスとシリーズ間相関をキャプチャするためのユニークな方法を提供する。 提案手法は,各系列の時間的変動を反映したノード埋め込みの生成,系列間の相関関係を符号化する適応的隣接行列の構築,およびノード特徴分布の多様化によるGNNの表現力の増大という3つの重要なステップによって支えられている。 この表現力を高めるために,GFC-GNN (Group Feature Convolution GNN) を導入する。 このモデルは学習可能なスケーラを用いてノードの特徴を複数のグループに分割し、集約フェーズの前に各グループに異なるカーネル長を持つ1次元の畳み込みを適用する。 その結果、GFC-GNN法は、完全なエンドツーエンド方式でノード特徴分布の多様性を向上する。 大規模な実験とアブレーション研究を通じて、ForecastGrapherは強力なベースラインを超え、多変量時系列予測の分野において主要な技術であることを示す。

The challenge of effectively learning inter-series correlations for multivariate time series forecasting remains a substantial and unresolved problem. Traditional deep learning models, which are largely dependent on the Transformer paradigm for modeling long sequences, often fail to integrate information from multiple time series into a coherent and universally applicable model. To bridge this gap, our paper presents ForecastGrapher, a framework reconceptualizes multivariate time series forecasting as a node regression task, providing a unique avenue for capturing the intricate temporal dynamics and inter-series correlations. Our approach is underpinned by three pivotal steps: firstly, generating custom node embeddings to reflect the temporal variations within each series; secondly, constructing an adaptive adjacency matrix to encode the inter-series correlations; and thirdly, augmenting the GNNs' expressive power by diversifying the node feature distribution. To enhance this expressive power, we introduce the Group Feature Convolution GNN (GFC-GNN). This model employs a learnable scaler to segment node features into multiple groups and applies one-dimensional convolutions with different kernel lengths to each group prior to the aggregation phase. Consequently, the GFC-GNN method enriches the diversity of node feature distribution in a fully end-to-end fashion. Through extensive experiments and ablation studies, we show that ForecastGrapher surpasses strong baselines and leading published techniques in the domain of multivariate time series forecasting.
翻訳日:2024-05-29 19:08:25 公開日:2024-05-28
# モバイルネットワークのための大規模言語モデル駆動型カリキュラム設計

Large Language Model-Driven Curriculum Design for Mobile Networks ( http://arxiv.org/abs/2405.18039v1 )

ライセンス: Link先を確認
Omar Erak, Omar Alhussein, Shimaa Naser, Nouf Alabbasi, De Mi, Sami Muhaidat, (参考訳) 本稿では,大規模言語モデル(LLM)を活用してカリキュラム設計を自動化し,モバイルネットワークにおける強化学習(RL)の適用性を高める新しいフレームワークを提案する。 モバイルネットワークが6G時代に向かって進化するにつれて、その複雑さと動的な性質を管理することが大きな課題となる。 従来のRLアプローチは、競合する目的や、モバイルネットワークに関連する大きな状態や行動空間のために、収束が遅く、一般化が貧弱な場合が多い。 これらの欠点に対処するために,RLエージェントを段階的に困難なタスクに体系的に公開し,収束と一般化を改善するカリキュラム学習を導入する。 しかし、カリキュラム設計は通常、広範囲のドメイン知識と手作業を必要とする。 本フレームワークは,LCMの生成能力を活用してカリキュラム設計プロセスの自動化を実現し,RLエージェントの収束と性能を向上しつつ,人的労力を大幅に削減する。 シミュレーションされたモバイルネットワーク環境にアプローチを展開し、RL収束率の改善、未確認シナリオへの一般化、全体的なパフォーマンス向上を実演する。 ケーススタディとして,モバイルネットワークにおける自律的コーディネートとユーザアソシエーションについて考察する。 得られた結果は,次世代無線ネットワークを管理するために,LCMベースのカリキュラム生成とRLを併用する可能性を強調し,完全自律型ネットワーク運用に向けての大きな一歩を踏み出した。

This paper proposes a novel framework that leverages large language models (LLMs) to automate curriculum design, thereby enhancing the application of reinforcement learning (RL) in mobile networks. As mobile networks evolve towards the 6G era, managing their increasing complexity and dynamic nature poses significant challenges. Conventional RL approaches often suffer from slow convergence and poor generalization due to conflicting objectives and the large state and action spaces associated with mobile networks. To address these shortcomings, we introduce curriculum learning, a method that systematically exposes the RL agent to progressively challenging tasks, improving convergence and generalization. However, curriculum design typically requires extensive domain knowledge and manual human effort. Our framework mitigates this by utilizing the generative capabilities of LLMs to automate the curriculum design process, significantly reducing human effort while improving the RL agent's convergence and performance. We deploy our approach within a simulated mobile network environment and demonstrate improved RL convergence rates, generalization to unseen scenarios, and overall performance enhancements. As a case study, we consider autonomous coordination and user association in mobile networks. Our obtained results highlight the potential of combining LLM-based curriculum generation with RL for managing next-generation wireless networks, marking a significant step towards fully autonomous network operations.
翻訳日:2024-05-29 19:08:25 公開日:2024-05-28
# Fast-FedUL: 有望なスキューレジリエンスを備えたトレーニング不要のフェデレーション・アンラーニング

Fast-FedUL: A Training-Free Federated Unlearning with Provable Skew Resilience ( http://arxiv.org/abs/2405.18040v1 )

ライセンス: Link先を確認
Thanh Trung Huynh, Trong Bang Nguyen, Phi Le Nguyen, Thanh Tam Nguyen, Matthias Weidlich, Quoc Viet Hung Nguyen, Karl Aberer, (参考訳) フェデレーテッド・ラーニング(FL)は先頃、データトレーニングのためのプライバシ保護を優先する、魅力的な機械学習パラダイムとして登場した。 忘れられる権利」や戦闘データ中毒攻撃といった問題に対処する需要が高まっていることは、訓練されたFLモデルから特定のトレーニングデータを削除することを容易にする、‘textit{unlearning} として知られるテクニックの重要性を強調している。 集中学習のために多くの未学習手法が提案されているが、2つの学習パラダイムの操作に根本的な違いがあるため、FLには適用できないことがしばしばある。 その結果、FLでの未学習は初期段階に留まり、いくつかの課題が提示された。 FLの既存の未学習ソリューションの多くは、コストのかかる再トレーニングプロセスを必要としています。 さらに、これらの手法は主に実験を通じて検証され、理論的な保証が欠如している。 本研究ではFast-FedULについて紹介する。FLの未学習に適した手法で、再学習の必要性を完全に排除する。 各ラウンドにおけるターゲットクライアントのグローバルモデルへの影響を慎重に分析することにより、トレーニングされたモデルからターゲットクライアントの影響を体系的に除去するアルゴリズムを開発する。 実験結果の提示に加えて,未学習モデルと正確な再学習モデル(未学習クライアントを用いて再学習したモデル)の上限を記述した理論的解析を行った。 バックドア攻撃シナリオによる実験結果から、Fast-FedULはターゲットクライアントのほとんどすべてのトレースを効果的に除去し、未ターゲットクライアントの知識を保持しながら(メインタスクで最大98倍の精度を得る)、効果的に除去することを示している。 重要なことに、Fast-FedULは最小の時間複雑性を実現し、再トレーニングの1000倍の速度を提供する。 ソースコードは \url{https://github.com/thanhtrunghuynh93/fastFedUL} で公開されています。

Federated learning (FL) has recently emerged as a compelling machine learning paradigm, prioritizing the protection of privacy for training data. The increasing demand to address issues such as ``the right to be forgotten'' and combat data poisoning attacks highlights the importance of techniques, known as \textit{unlearning}, which facilitate the removal of specific training data from trained FL models. Despite numerous unlearning methods proposed for centralized learning, they often prove inapplicable to FL due to fundamental differences in the operation of the two learning paradigms. Consequently, unlearning in FL remains in its early stages, presenting several challenges. Many existing unlearning solutions in FL require a costly retraining process, which can be burdensome for clients. Moreover, these methods are primarily validated through experiments, lacking theoretical assurances. In this study, we introduce Fast-FedUL, a tailored unlearning method for FL, which eliminates the need for retraining entirely. Through meticulous analysis of the target client's influence on the global model in each round, we develop an algorithm to systematically remove the impact of the target client from the trained model. In addition to presenting empirical findings, we offer a theoretical analysis delineating the upper bound of our unlearned model and the exact retrained model (the one obtained through retraining using untargeted clients). Experimental results with backdoor attack scenarios indicate that Fast-FedUL effectively removes almost all traces of the target client, while retaining the knowledge of untargeted clients (obtaining a high accuracy of up to 98\% on the main task). Significantly, Fast-FedUL attains the lowest time complexity, providing a speed that is 1000 times faster than retraining. Our source code is publicly available at \url{https://github.com/thanhtrunghuynh93/fastFedUL}.
翻訳日:2024-05-29 19:08:25 公開日:2024-05-28
# 自己監督型視覚変換器の損失景観の可視化

Visualizing the loss landscape of Self-supervised Vision Transformer ( http://arxiv.org/abs/2405.18042v1 )

ライセンス: Link先を確認
Youngwan Lee, Jeffrey Ryan Willette, Jonghee Kim, Sung Ju Hwang, (参考訳) Masked Autoencoder (MAE) は、視覚変換器を用いたマスク付き画像モデリングのための代表的自己教師型アプローチとして注目されている。 しかしながら、MAEは、スクラッチから完全に教師付きトレーニングを行うよりも、より優れた一般化能力を示すが、その理由が明らかにされていない。 別の研究の行では、指数移動平均(EMA)教師をMAEに変換する形で自己蒸留方式を採用するRC-MAE(Restruction Consistent Masked Auto Encoder)が提案されており、EMA-Teacherが最適化中に条件勾配補正を行うことが示されている。 さらに,MAE (MAE-ViT) による自己監督型 ViT のより良い一般化の理由と最適化の観点からRC-MAE の勾配補正の効果について検討するため,MAE と RC-MAE の双方で自己監督型視覚変換器の損失景観を可視化し,教師型 ViT (Sup-ViT) と比較した。 分類タスク損失に基づくニューラルネットワークの以前のロスランドスケープ可視化とは異なり、トレーニング前タスク損失の計算により、ViTのロスランドスケープを可視化する。 損失景観のレンズを通して、(1)MAE-ViTはSup-ViTよりも滑らかで全体的損失曲率が大きい。 2) EMA-Teacherは, 事前学習と線形探索の両方において, 凸領域を拡大し, より早く収束させる。 我々の知る限りでは、この研究は、ロスランドスケープのレンズを通して自己監督型ViTを初めて調査したものだ。

The Masked autoencoder (MAE) has drawn attention as a representative self-supervised approach for masked image modeling with vision transformers. However, even though MAE shows better generalization capability than fully supervised training from scratch, the reason why has not been explored. In another line of work, the Reconstruction Consistent Masked Auto Encoder (RC-MAE), has been proposed which adopts a self-distillation scheme in the form of an exponential moving average (EMA) teacher into MAE, and it has been shown that the EMA-teacher performs a conditional gradient correction during optimization. To further investigate the reason for better generalization of the self-supervised ViT when trained by MAE (MAE-ViT) and the effect of the gradient correction of RC-MAE from the perspective of optimization, we visualize the loss landscapes of the self-supervised vision transformer by both MAE and RC-MAE and compare them with the supervised ViT (Sup-ViT). Unlike previous loss landscape visualizations of neural networks based on classification task loss, we visualize the loss landscape of ViT by computing pre-training task loss. Through the lens of loss landscapes, we find two interesting observations: (1) MAE-ViT has a smoother and wider overall loss curvature than Sup-ViT. (2) The EMA-teacher allows MAE to widen the region of convexity in both pretraining and linear probing, leading to quicker convergence. To the best of our knowledge, this work is the first to investigate the self-supervised ViT through the lens of the loss landscape.
翻訳日:2024-05-29 19:08:25 公開日:2024-05-28
# マルチエージェント協調のための認知的洞察と安定な協調マッチング

Cognitive Insights and Stable Coalition Matching for Fostering Multi-Agent Cooperation ( http://arxiv.org/abs/2405.18044v1 )

ライセンス: Link先を確認
Jiaqi Shao, Tianjun Yuan, Tao Lin, Xuanyu Cao, Bing Luo, (参考訳) 心の理論(ToM)のような認知能力は、人間の社会的相互作用における協力を促進する上で重要な役割を担っている。 しかし,本研究では,ToM能力の低いエージェントは,ToM能力の低いエージェントに比べて必ずしも協調行動が良くないことが明らかとなった。 この課題に対処するため、我々は、連立形成における信念の整合性や特殊能力を明確に考慮し、異なるToMレベルのエージェントの強みを活用する新しい連立機構を提案する。 提案手法は,協調行動の可能性を最大化し,長期的生存性を確保するための安定な連立関係を求めるものである。 マルチエージェントシステムの設計に認知的洞察を取り入れることで、私たちの研究はToMを活用して、協力を促進し、システム全体のパフォーマンスを向上させる、より高度で人間的な調整戦略を構築する可能性を実証しています。

Cognitive abilities, such as Theory of Mind (ToM), play a vital role in facilitating cooperation in human social interactions. However, our study reveals that agents with higher ToM abilities may not necessarily exhibit better cooperative behavior compared to those with lower ToM abilities. To address this challenge, we propose a novel matching coalition mechanism that leverages the strengths of agents with different ToM levels by explicitly considering belief alignment and specialized abilities when forming coalitions. Our proposed matching algorithm seeks to find stable coalitions that maximize the potential for cooperative behavior and ensure long-term viability. By incorporating cognitive insights into the design of multi-agent systems, our work demonstrates the potential of leveraging ToM to create more sophisticated and human-like coordination strategies that foster cooperation and improve overall system performance.
翻訳日:2024-05-29 19:08:25 公開日:2024-05-28
# コントラスト学習におけるミニバッチと漸近的分析:InfoNCEからカーネルベースの損失へ

Bridging Mini-Batch and Asymptotic Analysis in Contrastive Learning: From InfoNCE to Kernel-Based Losses ( http://arxiv.org/abs/2405.18045v1 )

ライセンス: Link先を確認
Panagiotis Koromilas, Giorgos Bouritsas, Theodoros Giannakopoulos, Mihalis Nicolaou, Yannis Panagakis, (参考訳) 異なるコントラスト学習(CL)の損失は、実際何のために最適化されるのか? 複数のCL法は、顕著な表現学習能力を示しているが、内部の動作の違いはほとんど不透明である。 本研究では,いくつかのCLファミリーを分析し,ある条件下では,バッチレベルの目標や期待を漸近的に最適化する場合に,同じミニミザーが認められることを証明した。 どちらの場合も、超球面エネルギー最小化(HEM)問題との親密な関係が再浮上する。 このことから着想を得て,Decoupled Hyperspherical Energy Loss (DHEL) という新しいCL目標を導入した。 DHELは、同じ理論的保証を維持しながら、正の例のアライメントからターゲット超球面エネルギーを分離することで問題を単純化する。 さらにさらに、カーネルコントラスト学習(KCL)という別の関連CLファミリについても、期待される損失がバッチサイズに依存しないことのメリットが示され、非漸近的体制におけるミニミザーの特定が可能となった。 複数のコンピュータビジョンデータセットにおいて、異なるバッチサイズとハイパーパラメータの組み合わせによるダウンストリーム性能とロバスト性の改善と次元崩壊の低減が実証された。

What do different contrastive learning (CL) losses actually optimize for? Although multiple CL methods have demonstrated remarkable representation learning capabilities, the differences in their inner workings remain largely opaque. In this work, we analyse several CL families and prove that, under certain conditions, they admit the same minimisers when optimizing either their batch-level objectives or their expectations asymptotically. In both cases, an intimate connection with the hyperspherical energy minimisation (HEM) problem resurfaces. Drawing inspiration from this, we introduce a novel CL objective, coined Decoupled Hyperspherical Energy Loss (DHEL). DHEL simplifies the problem by decoupling the target hyperspherical energy from the alignment of positive examples while preserving the same theoretical guarantees. Going one step further, we show the same results hold for another relevant CL family, namely kernel contrastive learning (KCL), with the additional advantage of the expected loss being independent of batch size, thus identifying the minimisers in the non-asymptotic regime. Empirical results demonstrate improved downstream performance and robustness across combinations of different batch sizes and hyperparameters and reduced dimensionality collapse, on several computer vision datasets.
翻訳日:2024-05-29 19:08:25 公開日:2024-05-28
# 2BP: 2段階のバックプロパゲーション

2BP: 2-Stage Backpropagation ( http://arxiv.org/abs/2405.18047v1 )

ライセンス: Link先を確認
Christopher Rae, Joseph K. L. Lee, James Richings, (参考訳) ディープニューラルネットワーク(DNN)のサイズと複雑さが大きくなるにつれて、単一のアクセラレータのメモリ容量を超えることが多く、複数のアクセラレータをまたいだモデルパラメータのシャーディングが必要になる。 パイプライン並列性は、大規模なDNNをトレーニングするための一般的なシャーディング戦略である。 しかし、パイプライン並列化の現在の実装は、MLフレームワークが提供する自動微分ツールによって意図せずボトルネックになっている。 本稿では,2段階のバックプロパゲーション(2BP)を紹介する。 後方伝播ステップを2つの別々のステージに分割することで、アイドル計算時間を短縮できる。 様々なモデルアーキテクチャとパイプラインのスケジュールで2BPをテストし、すべてのケースでスループットの向上を実現しました。 2BPを使用することで、4つのGPUで70億のパラメータを持つLLaMaライクなトランスフォーマーをトレーニングする従来の方法と比較して、スループットが1.70倍向上しました。

As Deep Neural Networks (DNNs) grow in size and complexity, they often exceed the memory capacity of a single accelerator, necessitating the sharding of model parameters across multiple accelerators. Pipeline parallelism is a commonly used sharding strategy for training large DNNs. However, current implementations of pipeline parallelism are being unintentionally bottlenecked by the automatic differentiation tools provided by ML frameworks. This paper introduces 2-stage backpropagation (2BP). By splitting the backward propagation step into two separate stages, we can reduce idle compute time. We tested 2BP on various model architectures and pipelining schedules, achieving increases in throughput in all cases. Using 2BP, we were able to achieve a 1.70x increase in throughput compared to traditional methods when training a LLaMa-like transformer with 7 billion parameters across 4 GPUs.
翻訳日:2024-05-29 19:08:25 公開日:2024-05-28
# 連続時間動的グラフにおける学習型リンク異常検出

Learning-Based Link Anomaly Detection in Continuous-Time Dynamic Graphs ( http://arxiv.org/abs/2405.18050v1 )

ライセンス: Link先を確認
Tim Poštuvan, Claas Grohnfeldt, Michele Russo, Giulio Lovisotto, (参考訳) 連続時間動的グラフにおける異常検出は、学習に基づくアプローチの文脈において、まだ解明されていない分野である。 本稿では,これらのグラフにおける異常なリンクを特定するために,リンクレベルの異常とグラフ表現学習の先駆的な構造解析を行った。 まず、構造的・時間的・文脈的なグラフ特性を利用したエッジレベルの異常に対する微粒な分類法を提案する。 本稿では,そのような型付き異常をグラフに生成・注入する手法を提案する。 次に、時間、構造、文脈に一貫したパターンを持つ連続時間動的グラフを生成する新しい手法を提案する。 時間グラフ法でリンク異常検出タスクを学習できるようにするため,(1)コンテキストエッジ属性にリンクの存在を条件付けし,(2)負エッジサンプリング器における多様な摂動に適合するようにトレーニング体制を洗練することにより,汎用リンク予測設定を拡張した。 これに基づいて,異常検出の手法をベンチマークする。 合成およびラベル付けされた有機異常を特徴とする合成および実世界のデータセットに関する総合的な実験は、異常や良性グラフの分類と生成プロセスを検証するとともに、異常検出にリンク予測手法を適用するアプローチである。 さらに, グラフの正規性の異なる側面を抽出し, 異なる種類の異常を検出する上で, 異なる学習方法が優れていることを明らかにした。 今後の研究の機会を浮き彫りにした調査結果の総合的なリストで締めくくります。

Anomaly detection in continuous-time dynamic graphs is an emerging field yet under-explored in the context of learning-based approaches. In this paper, we pioneer structured analyses of link-level anomalies and graph representation learning for identifying anomalous links in these graphs. First, we introduce a fine-grain taxonomy for edge-level anomalies leveraging structural, temporal, and contextual graph properties. We present a method for generating and injecting such typed anomalies into graphs. Next, we introduce a novel method to generate continuous-time dynamic graphs with consistent patterns across time, structure, and context. To allow temporal graph methods to learn the link anomaly detection task, we extend the generic link prediction setting by: (1) conditioning link existence on contextual edge attributes; and (2) refining the training regime to accommodate diverse perturbations in the negative edge sampler. Building on this, we benchmark methods for anomaly detection. Comprehensive experiments on synthetic and real-world datasets -- featuring synthetic and labeled organic anomalies and employing six state-of-the-art learning methods -- validate our taxonomy and generation processes for anomalies and benign graphs, as well as our approach to adapting link prediction methods for anomaly detection. Our results further reveal that different learning methods excel in capturing different aspects of graph normality and detecting different types of anomalies. We conclude with a comprehensive list of findings highlighting opportunities for future research.
翻訳日:2024-05-29 19:08:25 公開日:2024-05-28
# 対数回帰に束縛された次元自由一様濃度

Dimension-free uniform concentration bound for logistic regression ( http://arxiv.org/abs/2405.18055v1 )

ライセンス: Link先を確認
Shogo Nakakita, (参考訳) 制約付きロジスティック回帰の経験的リスク関数に拘束された新しい次元自由一様濃度を与える。 我々の境界は、ラデマッハ複雑性論とマクダイアルメイドの不等式によって導かれる条件よりも大きな数の一様法則に対して、より穏やかな条件をもたらす。 この導出は、2階展開を持つPAC-ベイズ法と、拡張の残余項に対するラデマッハ複素性に基づく境界に基づくものである。

We provide a novel dimension-free uniform concentration bound for the empirical risk function of constrained logistic regression. Our bound yields a milder sufficient condition for a uniform law of large numbers than conditions derived by the Rademacher complexity argument and McDiarmid's inequality. The derivation is based on the PAC-Bayes approach with second-order expansion and Rademacher-complexity-based bounds for the residual term of the expansion.
翻訳日:2024-05-29 18:58:39 公開日:2024-05-28
# PRFashion24:ペルシアにおけるファッション製品レビューの感性分析のためのデータセット

PRFashion24: A Dataset for Sentiment Analysis of Fashion Products Reviews in Persian ( http://arxiv.org/abs/2405.18060v1 )

ライセンス: Link先を確認
Mehrimah Amirpour, Reza Azmi, (参考訳) PRFashion24データセットは、2020年4月から2024年3月まで、さまざまなオンラインファッションストアから収集された包括的なペルシアのデータセットである。 767,272のレビューで、ペルシア語のファッション業界における多様なカテゴリーを含む、この種のデータセットとしては初めてのものである。 本研究の目的は、特にLong Short-Term Memory(LSTM)ネットワークとBidirectional LSTMとConvolutional Neural Network(BiLSTM-CNN)を組み合わせて、オンラインファッションショッピングに対する感情を分析し、明らかにすることである。 LSTMモデルは81.23%、BiLSTM-CNNモデルは82.89%に達した。 本研究は,ファッション分野における多様なデータセットの導入だけでなく,肯定的な感情を反映したオンラインファッションショッピングに対する人々の意見の理解を高めることを目的としている。 公開されると、最適化されたモデルとPRFashion24データセットの両方がGitHubで利用可能になる。

The PRFashion24 dataset is a comprehensive Persian dataset collected from various online fashion stores, spanning from April 2020 to March 2024. With 767,272 reviews, it is the first dataset in its kind that encompasses diverse categories within the fashion industry in the Persian language. The goal of this study is to harness deep learning techniques, specifically Long Short-Term Memory (LSTM) networks and a combination of Bidirectional LSTM and Convolutional Neural Network (BiLSTM-CNN), to analyze and reveal sentiments towards online fashion shopping. The LSTM model yielded an accuracy of 81.23%, while the BiLSTM-CNN model reached 82.89%. This research aims not only to introduce a diverse dataset in the field of fashion but also to enhance the public's understanding of opinions on online fashion shopping, which predominantly reflect a positive sentiment. Upon publication, both the optimized models and the PRFashion24 dataset will be available on GitHub.
翻訳日:2024-05-29 18:58:39 公開日:2024-05-28
# 抑うつ的言語においてコンテキストは重要である:Redditの議論における感覚と言語マーカーの相互作用に関する研究

Context is Important in Depressive Language: A Study of the Interaction Between the Sentiments and Linguistic Markers in Reddit Discussions ( http://arxiv.org/abs/2405.18061v1 )

ライセンス: Link先を確認
Neha Sharma, Kairit Sirts, (参考訳) うつ病患者の言語マーカーを探索する研究は、言語の使用がメンタルヘルスの指標となることを示した。 本研究では、Redditデータセットを用いて、言語マーカーと抑うつの感情表現に対する議論トピックの文脈の影響について検討した。 共通の知見とは対照的に, 私たちの感情分析では, 抑うつ者の感情の強さはコントロールよりも否定的, 肯定的であった。 このパターンは感情的な言葉を含まないポストによって駆動され、完全な感情的文脈を捉えるための語彙に基づくアプローチの限界を明らかにする。 文脈分析の重要性を示すいくつかの興味深い結果が得られた。 例えば、怒りや悲しみに関連する1人称代名詞と1人称代名詞の使用は、肯定的な感情の増加と相関した。 本研究は、抑うつに使用される言語を解釈しながら、議論文脈の重要性を強調し、議論の話題によって、言語マーカーの感情的強度と意味が変化することを明らかにする。

Research exploring linguistic markers in individuals with depression has demonstrated that language usage can serve as an indicator of mental health. This study investigates the impact of discussion topic as context on linguistic markers and emotional expression in depression, using a Reddit dataset to explore interaction effects. Contrary to common findings, our sentiment analysis revealed a broader range of emotional intensity in depressed individuals, with both higher negative and positive sentiments than controls. This pattern was driven by posts containing no emotion words, revealing the limitations of the lexicon based approaches in capturing the full emotional context. We observed several interesting results demonstrating the importance of contextual analyses. For instance, the use of 1st person singular pronouns and words related to anger and sadness correlated with increased positive sentiments, whereas a higher rate of present-focused words was associated with more negative sentiments. Our findings highlight the importance of discussion contexts while interpreting the language used in depression, revealing that the emotional intensity and meaning of linguistic markers can vary based on the topic of discussion.
翻訳日:2024-05-29 18:58:39 公開日:2024-05-28
# SE教育における新しいAIアプリケーションの統合に向けて

Towards Integrating Emerging AI Applications in SE Education ( http://arxiv.org/abs/2405.18062v1 )

ライセンス: Link先を確認
Michael Vierhauser, Iris Groher, Tobias Antensteiner, Clemens Sauerwein, (参考訳) 人工知能(AI)アプローチは、現代の学習環境やソフトウェア工学(SE)コースやカリキュラムに数年間組み込まれてきた。 しかし、大きな言語モデル(LLM)が一般的に普及し、特に昨年、OpenAIのLLMベースのチャットボットChatGPTが人気を博し、教育者は急速に変化する教室環境に直面し、教育の原則を乱した。 例えば、ChatGPT経由で完全に生成されるプログラミング代入ソリューションから、試験中のさまざまな形式の不正行為まで、さまざまです。 しかし、これらの否定的な側面と新たな課題にもかかわらず、一般のAIツール、特にLLMアプリケーションもまた、様々なSEコースにおいて重要な機会を与え、学生と教育者の両方を有意義な方法で支援することができる。 本稿では,AIの領域における現在の傾向の体系的分析と,大学レベルのSEカリキュラム,ガイドライン,そしてインストラクターと学習者の両方を支援するためのアプローチへの統合について,予備的な結果を示す。 ACM Computer Science Curriculum Guidelines CS2023を用いて,教科と研究論文の両方を収集し,SE教育におけるその可能性について分析した。 最初の結果として、AIアプリケーションとさらなる研究分野の一連の機会について論じる。

Artificial Intelligence (AI) approaches have been incorporated into modern learning environments and software engineering (SE) courses and curricula for several years. However, with the significant rise in popularity of large language models (LLMs) in general, and OpenAI's LLM-powered chatbot ChatGPT in particular in the last year, educators are faced with rapidly changing classroom environments and disrupted teaching principles. Examples range from programming assignment solutions that are fully generated via ChatGPT, to various forms of cheating during exams. However, despite these negative aspects and emerging challenges, AI tools in general, and LLM applications in particular, can also provide significant opportunities in a wide variety of SE courses, supporting both students and educators in meaningful ways. In this early research paper, we present preliminary results of a systematic analysis of current trends in the area of AI, and how they can be integrated into university-level SE curricula, guidelines, and approaches to support both instructors and learners. We collected both teaching and research papers and analyzed their potential usage in SE education, using the ACM Computer Science Curriculum Guidelines CS2023. As an initial outcome, we discuss a series of opportunities for AI applications and further research areas.
翻訳日:2024-05-29 18:58:39 公開日:2024-05-28
# 建物画像からのリアルタイムサステナビリティ自動生成

Automated Real-World Sustainability Data Generation from Images of Buildings ( http://arxiv.org/abs/2405.18064v1 )

ライセンス: Link先を確認
Peter J Bentley, Soo Ling Lim, Rajat Mathur, Sid Narang, (参考訳) 建物の特徴に関するデータが入手できない場合、その建物を二酸化炭素排出量の観点からどのように改善するかを決定するタスクは実現不可能になる。 画像の集合のみから、適切な迅速なエンジニアリングとドメイン知識を持つ大規模言語モデルにより、持続可能性計算に関係のある様々な建築特徴を推定できることを示す。 提案手法を,47の集合住宅の実際の建物データからなる地上真実と比較し,その精度を人間よりも向上させる。 また, 提案手法は, 所有者に対して, プロパティ改善の最善の方法と, アプローチのスケール方法について議論する方法について, 適切なレコメンデーションを生成できることを実証する。

When data on building features is unavailable, the task of determining how to improve that building in terms of carbon emissions becomes infeasible. We show that from only a set of images, a Large Language Model with appropriate prompt engineering and domain knowledge can successfully estimate a range of building features relevant for sustainability calculations. We compare our novel image-to-data method with a ground truth comprising real building data for 47 apartments and achieve accuracy better than a human performing the same task. We also demonstrate that the method can generate tailored recommendations to the owner on how best to improve their properties and discuss methods to scale the approach.
翻訳日:2024-05-29 18:58:39 公開日:2024-05-28
# EffoVPR:視覚的位置認識のための効果的な基礎モデル利用

EffoVPR: Effective Foundation Model Utilization for Visual Place Recognition ( http://arxiv.org/abs/2405.18065v1 )

ライセンス: Link先を確認
Issar Tzachor, Boaz Lerner, Matan Levy, Michael Green, Tal Berkovitz Shalev, Gavriel Habib, Dvir Samuel, Noam Korngut Zailer, Or Shimshi, Nir Darshan, Rami Ben-Ari, (参考訳) 視覚的位置認識(VPR)の課題は、ジオタグ付き画像のデータベースからクエリ画像の位置を予測することである。 VPRにおける最近の研究は、VPRタスクにDINOv2のような事前訓練された基礎モデルを採用するという大きな利点を浮き彫りにした。 しかしながら、これらのモデルは、タスク固有のデータをさらに微調整することなく、VPRには不十分であるとみなされることが多い。 本稿では,VPRの基礎モデルの可能性をよりよく活用するための,シンプルながら強力なアプローチを提案する。 まず、自己注意層から抽出した機能が、VPRの強力なリランカとして機能することを実証する。 これらの特徴をゼロショット方式で利用することにより、従来のゼロショット方式を超越し、複数のデータセットにまたがる教師付き手法と比較して競合的な結果が得られる。 その後, 内部 ViT 層をプールに利用した単一段法は, 128D 以下の次元に縮められた場合においても, 最先端の成果をもたらすグローバルな特徴を生み出すことができることを示した。 それでも、当社のローカルファンデーション機能を再ランクに取り入れることで、このギャップを拡大します。 提案手法は, 閉塞, 昼夜の変動, 季節変化を含む, 挑戦的なシナリオにおいて, 最先端の成果を達成し, 顕著なギャップを伴う, 顕著な堅牢性と一般化を示すものである。

The task of Visual Place Recognition (VPR) is to predict the location of a query image from a database of geo-tagged images. Recent studies in VPR have highlighted the significant advantage of employing pre-trained foundation models like DINOv2 for the VPR task. However, these models are often deemed inadequate for VPR without further fine-tuning on task-specific data. In this paper, we propose a simple yet powerful approach to better exploit the potential of a foundation model for VPR. We first demonstrate that features extracted from self-attention layers can serve as a powerful re-ranker for VPR. Utilizing these features in a zero-shot manner, our method surpasses previous zero-shot methods and achieves competitive results compared to supervised methods across multiple datasets. Subsequently, we demonstrate that a single-stage method leveraging internal ViT layers for pooling can generate global features that achieve state-of-the-art results, even when reduced to a dimensionality as low as 128D. Nevertheless, incorporating our local foundation features for re-ranking, expands this gap. Our approach further demonstrates remarkable robustness and generalization, achieving state-of-the-art results, with a significant gap, in challenging scenarios, involving occlusion, day-night variations, and seasonal changes.
翻訳日:2024-05-29 18:58:39 公開日:2024-05-28
# 量子ネットワークハブのオンデマンドリソース割り当てアルゴリズムとその性能解析

An on-demand resource allocation algorithm for a quantum network hub and its performance analysis ( http://arxiv.org/abs/2405.18066v1 )

ライセンス: Link先を確認
Scarlett Gauthier, Thirupathaiah Vasantam, Gayane Vardoyan, (参考訳) 複数のユーザ制御された量子ノードに対する量子ネットワークアプリケーションの実行を効果的にサポートするために、量子ネットワークは共有リソースを効率的に割り当てる必要がある。 本研究では,ユーザ生成要求に応じて,ノード間の絡み合い発生を可能にするリソースを割り当てる装置であるEntanglement Generation Switch (EGS) と呼ばれる量子ネットワークハブのトラフィックモデルについて検討する。 オンデマンドリソース割り当てアルゴリズムでは、リソースが利用できない場合や、即時リソース割り当ての結果が得られない場合、要求がブロックされる。 我々はEGSをErlangの損失システムとしてモデル化し、Poissonプロセスとして到着するセッションに対応する要求をモデル化する。 実際の量子スイッチの動作を反映するために,我々のモデルは,量子ネットワークノードのキャリブレーション期間とインターリーブされる可能性のある,絡み合い発生試行のバッチにリソースが割り当てられるシナリオをキャプチャする。 校正期間は、試行期間と比較して長い時間スケールで発生する量子ノードの物理パラメータのドリフトやジャンプに対して修正する必要がある。 次に,適用確率と待ち行列理論から解析手法を用いて,3つの異なる交通シナリオ下での需要遮断確率の式を導出する。 我々は、要求がブロックされる確率が、各絡み合い発生試行期間と校正期間の平均時間にのみ依存することを保証する不感度定理を証明し、その基礎となる試行期間と校正期間の分布に敏感でない。 解析を支援するために数値的な結果を提供する。 我々の研究はESGシステムにおける交通特性を初めて分析し、性能駆動型リソース割り当てアルゴリズムを考案するための貴重な分析ツールを提供する。

To effectively support the execution of quantum network applications for multiple sets of user-controlled quantum nodes, a quantum network must efficiently allocate shared resources. We study traffic models for a type of quantum network hub called an Entanglement Generation Switch (EGS), a device that allocates resources to enable entanglement generation between nodes in response to user-generated demand. We propose an on-demand resource allocation algorithm, where a demand is either blocked if no resources are available or else results in immediate resource allocation. We model the EGS as an Erlang loss system, with demands corresponding to sessions whose arrival is modelled as a Poisson process. To reflect the operation of a practical quantum switch, our model captures scenarios where a resource is allocated for batches of entanglement generation attempts, possibly interleaved with calibration periods for the quantum network nodes. Calibration periods are necessary to correct against drifts or jumps in the physical parameters of a quantum node that occur on a timescale that is long compared to the duration of an attempt. We then derive a formula for the demand blocking probability under three different traffic scenarios using analytical methods from applied probability and queueing theory. We prove an insensitivity theorem which guarantees that the probability a demand is blocked only depends upon the mean duration of each entanglement generation attempt and calibration period, and is not sensitive to the underlying distributions of attempt and calibration period duration. We provide numerical results to support our analysis. Our work is the first analysis of traffic characteristics at an EGS system and provides a valuable analytic tool for devising performance driven resource allocation algorithms.
翻訳日:2024-05-29 18:58:39 公開日:2024-05-28
# リコメンダシステムにおける潜在因子モデルの検討

A Survey of Latent Factor Models in Recommender Systems ( http://arxiv.org/abs/2405.18068v1 )

ライセンス: Link先を確認
Hind I. Alshbanat, Hafida Benhidour, Said Kerrache, (参考訳) レコメンダシステムはデジタル時代に不可欠なツールであり、eコマース、エンターテイメント、ソーシャルメディアといった分野のユーザーにパーソナライズされたコンテンツを提供する。 これらのシステムを構築するために開発された多くのアプローチの中で、潜在因子モデルは特に有効であることが証明されている。 本調査では,リコメンデータシステムにおける潜在因子モデルについて,その中核となる原則,方法論,最近の進歩を体系的に検討する。 文献は、学習データ、モデルアーキテクチャ、学習戦略、最適化技術をカバーする構造化されたフレームワークを通して検証される。 この分析には、暗黙のフィードバック、信頼、コンテンツデータなどの学習データの種類に関する貢献の分類と詳細な議論、確率論的、非線形、ニューラルモデルなどの様々なモデル、オンライン学習、トランスファーラーニング、アクティブラーニングなどの多様な学習戦略の調査が含まれる。 さらに、調査では、潜在因子モデルのトレーニングに使用される最適化戦略に対処し、パフォーマンスとスケーラビリティを改善している。 この調査は、トレンド、ギャップ、潜在的研究の方向性を特定することで、リコメンデーターシステムの分野を推し進めようとしている研究者や実践者に貴重な洞察を提供することを目的としている。

Recommender systems are essential tools in the digital era, providing personalized content to users in areas like e-commerce, entertainment, and social media. Among the many approaches developed to create these systems, latent factor models have proven particularly effective. This survey systematically reviews latent factor models in recommender systems, focusing on their core principles, methodologies, and recent advancements. The literature is examined through a structured framework covering learning data, model architecture, learning strategies, and optimization techniques. The analysis includes a taxonomy of contributions and detailed discussions on the types of learning data used, such as implicit feedback, trust, and content data, various models such as probabilistic, nonlinear, and neural models, and an exploration of diverse learning strategies like online learning, transfer learning, and active learning. Furthermore, the survey addresses the optimization strategies used to train latent factor models, improving their performance and scalability. By identifying trends, gaps, and potential research directions, this survey aims to provide valuable insights for researchers and practitioners looking to advance the field of recommender systems.
翻訳日:2024-05-29 18:58:39 公開日:2024-05-28
# インクリメンタル低ランク更新を伴う事前学習モデルにおける蓄積の実証分析

An Empirical Analysis of Forgetting in Pre-trained Models with Incremental Low-Rank Updates ( http://arxiv.org/abs/2405.18069v1 )

ライセンス: Link先を確認
Albin Soutif--Cormerais, Simone Magistri, Joost van de Weijer, Andew D. Bagdanov, (参考訳) HuggingFaceのようなプラットフォームを通じて、インターネット上でトレーニング済みの大規模な基礎モデルを広く、オープンソースで利用可能にすることは、嵐による実用的なディープラーニングの世界を席巻した。 ニューラルネットワークトレーニングのための古典的なパイプラインは、通常、スクラッチからトレーニングする代わりに、小さなターゲットデータセット上でトレーニング済みのネットワークを微調整する。 大型モデルの場合、低ランク適応(LoRA)と呼ばれる低ランクのトレーニング技術を使用して、控えめなハードウェアでもこれを行うことができる。 低ランクトレーニングはすでに継続学習環境で研究されているが、既存のモデルと共に学習したアダプタを格納することを検討する場合が多いが、各タスクのトレーニングを終えた後、LoRAと既存の重みをマージすることで、事前訓練されたモデルの重みを修正しようとすることは稀である。 本稿では,この設定について検討し,LoRAランクが学習前の基礎課題の忘れ方,塑性とその後の課題の忘れ方に与える影響について考察する。 我々は,このランクが,事前学習タスクと下流タスクの両方を忘れることに重要な影響を与えることを観察した。 また,この方法で微調整された視覚変換器は,従来の連続学習作業ではまだ観察されていないと信じている,残余のネットワークに対して観察しない動作である「文脈的」な記憶を示すものであることも確認した。

Broad, open source availability of large pretrained foundation models on the internet through platforms such as HuggingFace has taken the world of practical deep learning by storm. A classical pipeline for neural network training now typically consists of finetuning these pretrained network on a small target dataset instead of training from scratch. In the case of large models this can be done even on modest hardware using a low rank training technique known as Low-Rank Adaptation (LoRA). While Low Rank training has already been studied in the continual learning setting, existing works often consider storing the learned adapter along with the existing model but rarely attempt to modify the weights of the pretrained model by merging the LoRA with the existing weights after finishing the training of each task. In this article we investigate this setting and study the impact of LoRA rank on the forgetting of the pretraining foundation task and on the plasticity and forgetting of subsequent ones. We observe that this rank has an important impact on forgetting of both the pretraining and downstream tasks. We also observe that vision transformers finetuned in that way exhibit a sort of ``contextual'' forgetting, a behaviour that we do not observe for residual networks and that we believe has not been observed yet in previous continual learning works.
翻訳日:2024-05-29 18:58:39 公開日:2024-05-28
# 拡散に基づくディープフェイク検出のためのテキストモダリティ指向画像特徴抽出

Text Modality Oriented Image Feature Extraction for Detecting Diffusion-based DeepFake ( http://arxiv.org/abs/2405.18071v1 )

ライセンス: Link先を確認
Di Yang, Yihao Huang, Qing Guo, Felix Juefei-Xu, Xiaojun Jia, Run Wang, Geguang Pu, Yang Liu, (参考訳) 拡散法の普及により、オンデマンドで非常にリアルな画像を作成することが可能となり、オンライン情報の完全性と安全性に重大なリスクを生じさせ、DeepFake検出の必要性を強調している。 従来の画像エンコーダで抽出した特徴を解析した結果,様々な拡散法により生成されたDeepFake画像の識別において,低レベルの特徴と高レベルの特徴の両方が明らかとなった。 この発見に触発されて、拡散に基づくDeepFakeを検出するために、低レベルと高レベルの両方の特徴をキャプチャする効果的な表現を開発することを目指している。 そこで本研究では,TOFEと呼ばれるテキストモダリティ指向の特徴抽出手法を提案する。 具体的には,特定の対象画像に対して,対象画像の生成を特定のテキスト・ツー・イメージ・モデルでガイドできる,対応するテキスト埋め込みである。 10種類の拡散型を対象に実験を行い,提案手法の有効性を実証した。

The widespread use of diffusion methods enables the creation of highly realistic images on demand, thereby posing significant risks to the integrity and safety of online information and highlighting the necessity of DeepFake detection. Our analysis of features extracted by traditional image encoders reveals that both low-level and high-level features offer distinct advantages in identifying DeepFake images produced by various diffusion methods. Inspired by this finding, we aim to develop an effective representation that captures both low-level and high-level features to detect diffusion-based DeepFakes. To address the problem, we propose a text modality-oriented feature extraction method, termed TOFE. Specifically, for a given target image, the representation we discovered is a corresponding text embedding that can guide the generation of the target image with a specific text-to-image model. Experiments conducted across ten diffusion types demonstrate the efficacy of our proposed method.
翻訳日:2024-05-29 18:58:39 公開日:2024-05-28
# ヒューマンAI推論とバリューアライメントの対話に向けて

Towards Dialogues for Joint Human-AI Reasoning and Value Alignment ( http://arxiv.org/abs/2405.18073v1 )

ライセンス: Link先を確認
Elfia Bezou-Vrakatseli, Oana Cocarascu, Sanjay Modgil, (参考訳) 共同推論(すなわち「問い合わせ」)を支援することを目的とした人間-AI対話の実現は、AIによる意思決定が人間の価値観や嗜好と一致していることを保証する上で重要である、と我々は主張する。 特に、議論と対話の論理に基づくモデルを指して、従来の説得対話の焦点は、質問対話の焦点に置き換わることと、共同調査が引き起こす個別の課題に置き換わることを提案する。 近年,大規模言語モデル(LLM)の性能が飛躍的に向上し,意思決定への利用が期待されることを踏まえ,倫理的に健全な共同人間-LLM推論タスクを支援するための調査対話のロードマップを提供する。

We argue that enabling human-AI dialogue, purposed to support joint reasoning (i.e., 'inquiry'), is important for ensuring that AI decision making is aligned with human values and preferences. In particular, we point to logic-based models of argumentation and dialogue, and suggest that the traditional focus on persuasion dialogues be replaced by a focus on inquiry dialogues, and the distinct challenges that joint inquiry raises. Given recent dramatic advances in the performance of large language models (LLMs), and the anticipated increase in their use for decision making, we provide a roadmap for research into inquiry dialogues for supporting joint human-LLM reasoning tasks that are ethically salient, and that thereby require that decisions are value aligned.
翻訳日:2024-05-29 18:58:39 公開日:2024-05-28
# PropEnで必然的にガイドされた設計: データをグラディエントにマッチさせる

Implicitly Guided Design with PropEn: Match your Data to Follow the Gradient ( http://arxiv.org/abs/2405.18075v1 )

ライセンス: Link先を確認
Nataša Tagasovska, Vladimir Gligorijević, Kyunghyun Cho, Andreas Loukas, (参考訳) 科学的領域全体、新しいモデルの生成、あるいは特定の基準を満たしながら既存のモデルを最適化することが不可欠である。 ガイド付き設計のための伝統的な機械学習フレームワークは、生成モデルと代理モデル(ディスクリミネータ)を使用し、大きなデータセットを必要とする。 しかし、現実の科学的応用は、しばしば限られたデータと複雑な風景を持ち、データハングリーモデルが非効率的または非実用的になる。 我々は,識別器を訓練することなく暗黙の指導を可能にする,'matching'にインスパイアされた新しいフレームワークPropEnを提案する。 それぞれのサンプルを、より優れたプロパティ値を持つ類似のサンプルとマッチングすることにより、本質的に改善の方向性を示す、より大きなトレーニングデータセットを作成します。 マッチングとエンコーダ・デコーダアーキテクチャが組み合わさって、プロパティ拡張のためのドメインに依存しない生成フレームワークを形成する。 一致したデータセットによるトレーニングは、データ分布内に留まりながら興味のある性質の勾配を近似し、効率的な設計最適化を可能にすることを示す。 おもちゃの問題や治療タンパク質の設計や翼の最適化といった科学的な応用における広範囲な評価は、一般的なベースラインよりもPropEnの利点を示している。 特に,タンパク質設計の結果を湿式実験で検証し,本手法の有効性と有効性を確認した。

Across scientific domains, generating new models or optimizing existing ones while meeting specific criteria is crucial. Traditional machine learning frameworks for guided design use a generative model and a surrogate model (discriminator), requiring large datasets. However, real-world scientific applications often have limited data and complex landscapes, making data-hungry models inefficient or impractical. We propose a new framework, PropEn, inspired by ``matching'', which enables implicit guidance without training a discriminator. By matching each sample with a similar one that has a better property value, we create a larger training dataset that inherently indicates the direction of improvement. Matching, combined with an encoder-decoder architecture, forms a domain-agnostic generative framework for property enhancement. We show that training with a matched dataset approximates the gradient of the property of interest while remaining within the data distribution, allowing efficient design optimization. Extensive evaluations in toy problems and scientific applications, such as therapeutic protein design and airfoil optimization, demonstrate PropEn's advantages over common baselines. Notably, the protein design results are validated with wet lab experiments, confirming the competitiveness and effectiveness of our approach.
翻訳日:2024-05-29 18:58:39 公開日:2024-05-28
# Falsible, Replicable and Reproducible Empirical ML Researchのための設計原理

Design Principles for Falsifiable, Replicable and Reproducible Empirical ML Research ( http://arxiv.org/abs/2405.18077v1 )

ライセンス: Link先を確認
Daniel Vranješ, Oliver Niggemann, (参考訳) 実証的研究は、機械学習領域において基本的な役割を担っている。 衝撃的な実験研究の中心には、明確な研究仮説が展開され、実験の設計が形成される。 実験の実行は、信頼性の高い結果を保証するために精度で実行されなければならない。 このプロセスは、初期仮説を支持したり否定したりするための鍵となる。 その重要性にもかかわらず、機械学習コミュニティにおける研究実践の多様性は高く、経験的研究における品質基準の統一的な理解は存在しない。 このギャップに対処するため,実証研究の妥当性を維持するためのガイドラインを伴って,実証研究プロセスのモデルを提案する。 これらのレコメンデーションを受け入れることで、一貫性の向上、信頼性の向上、影響の増大が可能になる。

Empirical research plays a fundamental role in the machine learning domain. At the heart of impactful empirical research lies the development of clear research hypotheses, which then shape the design of experiments. The execution of experiments must be carried out with precision to ensure reliable results, followed by statistical analysis to interpret these outcomes. This process is key to either supporting or refuting initial hypotheses. Despite its importance, there is a high variability in research practices across the machine learning community and no uniform understanding of quality criteria for empirical research. To address this gap, we propose a model for the empirical research process, accompanied by guidelines to uphold the validity of empirical research. By embracing these recommendations, greater consistency, enhanced reliability and increased impact can be achieved.
翻訳日:2024-05-29 18:58:39 公開日:2024-05-28
# 航空画像のセマンティックセグメンテーションのためのエッジ誘導型・クラスバランスアクティブラーニング

Edge-guided and Class-balanced Active Learning for Semantic Segmentation of Aerial Images ( http://arxiv.org/abs/2405.18078v1 )

ライセンス: Link先を確認
Lianlei Shan, Weiqiang Wang, Ke Lv, Bin Luo, (参考訳) セマンティックセグメンテーションには、時間を要するピクセルレベルのアノテーションが必要である。 アクティブラーニング(AL)はデータアノテーションのコストを削減するための有望な方法である。 航空画像と自然画像のギャップのため、従来のAL手法は理想的ではなく、主に不合理なラベリングユニットとクラス不均衡の無視が原因である。 従来のラベリングユニットは画像や領域に基づいており、セグメンテーションタスクや空中画像の特徴を考慮していない。 そのため、エッジガイド付きラベリングユニットが提案され、新しいユニットとして補足される。 一方、クラス不均衡は深刻であり、航空画像は深刻な不均衡であり、AL戦略はクラスバランスを完全に考慮していない。 どちらも空中画像におけるALの性能に深刻な影響を与えている。 初期ラベル付きデータ、その後のラベル付きデータ、擬似ラベルを含む、不均衡が起こる可能性のあるすべてのステップから、クラスバランスを包括的に保証します。 この2つの改良により,Deepglobe, Potsdam, Vaihingenの3つのベンチマークデータセットの最先端手法と比較して11.2\%以上のゲインを達成し,ベースラインと比較して18.6\%以上のゲインを達成した。 十分なアブレーションの研究は、すべての加群が必須であることを示している。 さらに,航空画像セグメンテーションのためのAL研究のための,公平かつ強力なベンチマークを構築した。

Semantic segmentation requires pixel-level annotation, which is time-consuming. Active Learning (AL) is a promising method for reducing data annotation costs. Due to the gap between aerial and natural images, the previous AL methods are not ideal, mainly caused by unreasonable labeling units and the neglect of class imbalance. Previous labeling units are based on images or regions, which does not consider the characteristics of segmentation tasks and aerial images, i.e., the segmentation network often makes mistakes in the edge region, and the edge of aerial images is often interlaced and irregular. Therefore, an edge-guided labeling unit is proposed and supplemented as the new unit. On the other hand, the class imbalance is severe, manifested in two aspects: the aerial image is seriously imbalanced, and the AL strategy does not fully consider the class balance. Both seriously affect the performance of AL in aerial images. We comprehensively ensure class balance from all steps that may occur imbalance, including initial labeled data, subsequent labeled data, and pseudo-labels. Through the two improvements, our method achieves more than 11.2\% gains compared to state-of-the-art methods on three benchmark datasets, Deepglobe, Potsdam, and Vaihingen, and more than 18.6\% gains compared to the baseline. Sufficient ablation studies show that every module is indispensable. Furthermore, we establish a fair and strong benchmark for future research on AL for aerial image segmentation.
翻訳日:2024-05-29 18:58:39 公開日:2024-05-28
# HarmoDT:オフライン強化学習のための高調波マルチタスク決定変換器

HarmoDT: Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning ( http://arxiv.org/abs/2405.18080v1 )

ライセンス: Link先を確認
Shengchao Hu, Ziqing Fan, Li Shen, Ya Zhang, Yanfeng Wang, Dacheng Tao, (参考訳) オフラインマルチタスク強化学習(MTRL)の目的は、オンライン環境相互作用を必要とせず、多様なタスクに適用可能な統一されたポリシーを開発することである。 近年の進歩は、Transformerアーキテクチャのスケーラビリティと、タスク類似性を活用するためにパラメータ共有の利点を活用する、シーケンスモデリングによるアプローチである。 しかし、タスクの内容と複雑さの変化は、ポリシーの定式化、司法パラメータの共有、および最適な政策性能のための矛盾する勾配の管理に重大な課題をもたらす。 本研究では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。 我々はこれを二段階最適化問題としてアプローチし、勾配に基づく手法を利用したメタラーニングフレームワークを用いる。 このフレームワークの上位レベルは、調和部分空間を規定するタスク固有のマスクの学習に特化しており、内部レベルは、統一されたポリシーの全体的なパフォーマンスを高めるためにパラメータの更新に重点を置いている。 一連のベンチマークにおける実証的な評価は、HarmoDTの優位性を示し、我々のアプローチの有効性を検証する。

The purpose of offline multi-task reinforcement learning (MTRL) is to develop a unified policy applicable to diverse tasks without the need for online environmental interaction. Recent advancements approach this through sequence modeling, leveraging the Transformer architecture's scalability and the benefits of parameter sharing to exploit task similarities. However, variations in task content and complexity pose significant challenges in policy formulation, necessitating judicious parameter sharing and management of conflicting gradients for optimal policy performance. In this work, we introduce the Harmony Multi-Task Decision Transformer (HarmoDT), a novel solution designed to identify an optimal harmony subspace of parameters for each task. We approach this as a bi-level optimization problem, employing a meta-learning framework that leverages gradient-based techniques. The upper level of this framework is dedicated to learning a task-specific mask that delineates the harmony subspace, while the inner level focuses on updating parameters to enhance the overall performance of the unified policy. Empirical evaluations on a series of benchmarks demonstrate the superiority of HarmoDT, verifying the effectiveness of our approach.
翻訳日:2024-05-29 18:58:39 公開日:2024-05-28
# 回転不変雑音を有するスパイク行列モデルに対する近似メッセージパッシングアルゴリズムの最適性

Optimality of Approximate Message Passing Algorithms for Spiked Matrix Models with Rotationally Invariant Noise ( http://arxiv.org/abs/2405.18081v1 )

ライセンス: Link先を確認
Rishabh Dudeja, Songbin Liu, Junjie Ma, (参考訳) 本研究では,信号に加法的回転不変雑音を付加して発生する観測行列からランク1信号行列を推定する問題について検討する。 この問題に対する近似メッセージパッシングアルゴリズムの新たなクラスを開発し、高次元極限におけるそれらのダイナミクスの簡易かつ簡潔な特徴付けを提供する。 各繰り返しにおいて、これらのアルゴリズムは、観測された行列の固有値に非線形行列 denoiser を適用することで、ノイズ構造に関する事前知識と、そのアルゴリズムが生成した前のイテレーションに非線形反復行列 denoiser を適用することによって、信号構造に関する事前情報を利用する。 我々は,これらのアルゴリズムのダイナミクスを利用して,行列と反復デノイザの最適選択を導出する。 提案手法は,固定反復予算の下で,広範囲な反復アルゴリズムのうち,最小限の漸近推定誤差を達成できることを示す。

We study the problem of estimating a rank one signal matrix from an observed matrix generated by corrupting the signal with additive rotationally invariant noise. We develop a new class of approximate message-passing algorithms for this problem and provide a simple and concise characterization of their dynamics in the high-dimensional limit. At each iteration, these algorithms exploit prior knowledge about the noise structure by applying a non-linear matrix denoiser to the eigenvalues of the observed matrix and prior information regarding the signal structure by applying a non-linear iterate denoiser to the previous iterates generated by the algorithm. We exploit our result on the dynamics of these algorithms to derive the optimal choices for the matrix and iterate denoisers. We show that the resulting algorithm achieves the smallest possible asymptotic estimation error among a broad class of iterative algorithms under a fixed iteration budget.
翻訳日:2024-05-29 18:48:53 公開日:2024-05-28
# 周期的活性化機能を有する誘導制御ネットワーク

Guidance and Control Networks with Periodic Activation Functions ( http://arxiv.org/abs/2405.18084v1 )

ライセンス: Link先を確認
Sebastien Origer, Dario Izzo, (参考訳) 正弦波表現ネットワーク(SIREN)の汎用性に着想を得て,隠れ層における周期的アクティベーション関数を用いた改良型誘導制御ネットワーク(G&CNET)を提案する。 我々は、G&CNETが以前テストされた3つの異なる制御シナリオにおいて、結果のG&CNETがより速くトレーニングし、全体的なトレーニングエラーを低くすることを示した。 予備解析は、G&CNETが優れている特定の種類のタスクに対して、SIRENアーキテクチャの優れた性能を説明するために提示される。

Inspired by the versatility of sinusoidal representation networks (SIRENs), we present a modified Guidance & Control Networks (G&CNETs) variant using periodic activation functions in the hidden layers. We demonstrate that the resulting G&CNETs train faster and achieve a lower overall training error on three different control scenarios on which G&CNETs have been tested previously. A preliminary analysis is presented in an attempt to explain the superior performance of the SIREN architecture for the particular types of tasks that G&CNETs excel on.
翻訳日:2024-05-29 18:48:53 公開日:2024-05-28
# FlowSDF: 距離変換を用いた医用画像分割のためのフローマッチング

FlowSDF: Flow Matching for Medical Image Segmentation Using Distance Transforms ( http://arxiv.org/abs/2405.18087v1 )

ライセンス: Link先を確認
Lea Bogensperger, Dominik Narnhofer, Alexander Falk, Konrad Schindler, Thomas Pock, (参考訳) 医用画像のセグメンテーションは、医用画像の関心領域を正確に識別し、分離する能力に依存する重要な課題である。 これにより、生成的アプローチは、それぞれの構造に依存するセグメンテーションマスクの統計的性質を捉えることができる。 本研究では,署名された距離関数(SDF)を表す画像誘導型条件付きフローマッチングフレームワークであるFlowSDFを提案する。 SDFを利用する利点は、二元マスクに比べて、より自然な歪みである。 SDFの条件分布の確率パスに直接関係するベクトル場を学習することにより、セグメント化マスクの分布から正確にサンプリングすることができ、統計量の評価が可能となる。 したがって、この確率的表現は、分散によって表される不確実性写像の生成を可能にし、さらなる解析と予測ロバスト性の向上に役立つ。 提案手法の核・腺分節データセットに対する競合性能を質的,定量的に検証し,医用画像分節法における有用性を強調した。

Medical image segmentation is a crucial task that relies on the ability to accurately identify and isolate regions of interest in medical images. Thereby, generative approaches allow to capture the statistical properties of segmentation masks that are dependent on the respective structures. In this work we propose FlowSDF, an image-guided conditional flow matching framework to represent the signed distance function (SDF) leading to an implicit distribution of segmentation masks. The advantage of leveraging the SDF is a more natural distortion when compared to that of binary masks. By learning a vector field that is directly related to the probability path of a conditional distribution of SDFs, we can accurately sample from the distribution of segmentation masks, allowing for the evaluation of statistical quantities. Thus, this probabilistic representation allows for the generation of uncertainty maps represented by the variance, which can aid in further analysis and enhance the predictive robustness. We qualitatively and quantitatively illustrate competitive performance of the proposed method on a public nuclei and gland segmentation data set, highlighting its utility in medical image segmentation applications.
翻訳日:2024-05-29 18:48:53 公開日:2024-05-28
# 非定常環境における適応的移動学習の視点からの分類

An adaptive transfer learning perspective on classification in non-stationary environments ( http://arxiv.org/abs/2405.18091v1 )

ライセンス: Link先を確認
Henry W J Reeve, (参考訳) 非定常ラベルシフトを伴う半教師付き分類問題として、ラベル付きデータセットと、クラスラベルの限界確率が時間とともに変化するような非ラベル付き共変ベクトルの列について考察する。 本研究の目的は,各共変量ベクトルに対する対応するクラスラベルを,初期ラベル付きデータセットを超えて観測することなく予測することである。 これまでの研究は、最適動的戦略(Bai et al 2022)と競争力のあるオンライン勾配勾配勾配の高度な変種の可能性を示してきた。 本研究では,適応的伝達学習の統計的手法に基づく代替手法について検討する。 本手法の利点は,各テスト時間におけるテストエラーに縛られた高い確率的後悔を確定し,限界ラベル確率の未知のダイナミクスに自動的に適応させることによって示される。 さらに、任意の時間間隔におけるオンライン学習視点の平均的保証と一致する平均的動的後悔に限界を与える。

We consider a semi-supervised classification problem with non-stationary label-shift in which we observe a labelled data set followed by a sequence of unlabelled covariate vectors in which the marginal probabilities of the class labels may change over time. Our objective is to predict the corresponding class-label for each covariate vector, without ever observing the ground-truth labels, beyond the initial labelled data set. Previous work has demonstrated the potential of sophisticated variants of online gradient descent to perform competitively with the optimal dynamic strategy (Bai et al. 2022). In this work we explore an alternative approach grounded in statistical methods for adaptive transfer learning. We demonstrate the merits of this alternative methodology by establishing a high-probability regret bound on the test error at any given individual test-time, which adapt automatically to the unknown dynamics of the marginal label probabilities. Further more, we give bounds on the average dynamic regret which match the average guarantees of the online learning perspective for any given time interval.
翻訳日:2024-05-29 18:48:53 公開日:2024-05-28
# シミュレーションを用いたLLM実験:デジタル双生児におけるプロセスシミュレーションパラメトリゼーションのための大規模言語モデルマルチエージェントシステム

LLM experiments with simulation: Large Language Model Multi-Agent System for Process Simulation Parametrization in Digital Twins ( http://arxiv.org/abs/2405.18092v1 )

ライセンス: Link先を確認
Yuchen Xia, Daniel Dittler, Nasser Jazdi, Haonan Chen, Michael Weyrich, (参考訳) 本稿では,デジタル双生児におけるプロセスシミュレーションのパラメトリゼーションを自動化するために,大規模言語モデル(LLM)を適用したマルチエージェントシステムフレームワークの設計を提案する。 本稿では,観察,推論,決定,要約の4種類のエージェントを含むマルチエージェントフレームワークを提案する。 LLMエージェントとシミュレーションモデルとの動的相互作用を可能にすることにより,シミュレーションのパラメトリゼーションを自動的に探索し,ヒューリスティック推論を用いてシミュレーションを制御し,目的を達成するためのパラメータセットを決定する。 提案手法は, LLMからヒューリスティックスを注入することでシミュレーションモデルを強化し, ユーザタスクを解くために, 実現可能なパラメトリゼーションの自律探索を可能にする。 さらに、複雑な意思決定プロセスを支援することにより、ユーザのフレンドリさを高め、人間の認知負荷を低減することができる。 システムの有効性と機能はケーススタディを通じて実証され、視覚化されたデモはGitHub Repositoryで見ることができる。

This paper presents a novel design of a multi-agent system framework that applies a large language model (LLM) to automate the parametrization of process simulations in digital twins. We propose a multi-agent framework that includes four types of agents: observation, reasoning, decision and summarization. By enabling dynamic interaction between LLM agents and simulation model, the developed system can automatically explore the parametrization of the simulation and use heuristic reasoning to determine a set of parameters to control the simulation to achieve an objective. The proposed approach enhances the simulation model by infusing it with heuristics from LLM and enables autonomous search for feasible parametrization to solve a user task. Furthermore, the system has the potential to increase user-friendliness and reduce the cognitive load on human users by assisting in complex decision-making processes. The effectiveness and functionality of the system are demonstrated through a case study, and the visualized demos are available at a GitHub Repository: https://github.com/YuchenXia/LLMDrivenSimulation
翻訳日:2024-05-29 18:48:53 公開日:2024-05-28
# Pipette: リアルタイムクラスタのための,きめ細かな大規模言語モデルのトレーニング設定

Pipette: Automatic Fine-grained Large Language Model Training Configurator for Real-World Clusters ( http://arxiv.org/abs/2405.18093v1 )

ライセンス: Link先を確認
Jinkyu Yim, Jaeyong Song, Yerim Choi, Jaebeen Lee, Jaewon Jung, Hongsun Jang, Jinho Lee, (参考訳) 大規模言語モデル(LLM)の訓練は、膨大な計算能力とメモリ容量の要求のために困難であることが知られている。 これらの問題に対処するために、データバッチ、パイプラインステージ、層内テンソル次元に沿ってモデルを分割する3次元並列性を持つGPUのクラスタを使用するのが一般的である。 しかし、3D並列性を用いることで、各次元の最適な方法を見つけ、分割したモデルをGPUにマッピングするという、さらなる課題が生まれる。 以前のいくつかの研究では、最適な構成を自動的に見つけようとしたが、その多くがいくつかの重要な側面を欠いていた。 例えば、相互接続速度の不均一性はしばしば無視される。 通常、相互接続のピーク帯域幅は等しいが、実際の到達帯域幅は実世界のクラスタでリンクごとに異なる。 コミュニケーションを適切に考慮しないクリティカルパスモデリングと組み合わせることで、それらは容易に準最適構成に陥る。 さらに、GPU当たりのメモリ要求を考慮するのに失敗することが多く、実行できないソリューションを推奨することが多い。 これらの課題に対処するために,実世界のクラスタを対象としたLLM自動微粒化トレーニングコンストラクタであるPipetteを提案する。 メモリ推定器とともに優れたパフォーマンスモデルを考案し、個々のGPU割り当てをきめ細かなものにすることで、Pipetteはメモリ制約を満たすより高速な設定を実現する。 大規模クラスタ上でPipetteを評価して,従来よりも大幅に高速化されたことを示す。 Pipetteの実装はhttps://github.com/yimjinkyu1/date2024_pipetteで公開されている。

Training large language models (LLMs) is known to be challenging because of the huge computational and memory capacity requirements. To address these issues, it is common to use a cluster of GPUs with 3D parallelism, which splits a model along the data batch, pipeline stage, and intra-layer tensor dimensions. However, the use of 3D parallelism produces the additional challenge of finding the optimal number of ways on each dimension and mapping the split models onto the GPUs. Several previous studies have attempted to automatically find the optimal configuration, but many of these lacked several important aspects. For instance, the heterogeneous nature of the interconnect speeds is often ignored. While the peak bandwidths for the interconnects are usually made equal, the actual attained bandwidth varies per link in real-world clusters. Combined with the critical path modeling that does not properly consider the communication, they easily fall into sub-optimal configurations. In addition, they often fail to consider the memory requirement per GPU, often recommending solutions that could not be executed. To address these challenges, we propose Pipette, which is an automatic fine-grained LLM training configurator for real-world clusters. By devising better performance models along with the memory estimator and fine-grained individual GPU assignment, Pipette achieves faster configurations that satisfy the memory constraints. We evaluated Pipette on large clusters to show that it provides a significant speedup over the prior art. The implementation of Pipette is available at https://github.com/yimjinkyu1/date2024_pipette.
翻訳日:2024-05-29 18:48:53 公開日:2024-05-28
# 機械学習は自然科学にとって良いのか悪いのか?

Is machine learning good or bad for the natural sciences? ( http://arxiv.org/abs/2405.18095v1 )

ライセンス: Link先を確認
David W. Hogg, Soledad Villar, (参考訳) 機械学習(ML)メソッドは、すべての科学に大きく影響しています。 しかし、MLには強力なオントロジー(データのみが存在する)と強力な認識論(モデルが保持されたトレーニングデータでうまく機能していると判断される)がある。 これらの哲学は、標準的な実践と自然科学における重要な哲学の両方と強く対立している。 ここでは、オントロジーと認識学が貴重である自然科学におけるMLのいくつかの場所を特定する。 例えば、前景や背景、楽器の校正パラメータといった共同創設者の影響を表現するために、表現力のある機械学習モデルが因果推論で使用される場合、モデルのキャパシティとMLの緩やかな哲学は、結果をより信頼できるものにします。 また、MLの導入が強い、望ましくない統計バイアスをもたらす状況があることも示している。 例えば、MLモデルを用いて物理(または第一原理)シミュレーションをエミュレートすると、強い確証バイアスが発生する。 別の例として、データセットのラベル付けに表現的回帰を用いる場合、制御不能なバイアスを考慮せずに下流のジョイントやアンサンブル分析では、これらのラベルは使用できない。 このタイトルの問題は、すべての自然科学から求められている。つまり、我々は科学コミュニティに対して、その分野におけるMLの役割と価値について、一歩後退するよう呼びかけている。

Machine learning (ML) methods are having a huge impact across all of the sciences. However, ML has a strong ontology - in which only the data exist - and a strong epistemology - in which a model is considered good if it performs well on held-out training data. These philosophies are in strong conflict with both standard practices and key philosophies in the natural sciences. Here, we identify some locations for ML in the natural sciences at which the ontology and epistemology are valuable. For example, when an expressive machine learning model is used in a causal inference to represent the effects of confounders, such as foregrounds, backgrounds, or instrument calibration parameters, the model capacity and loose philosophy of ML can make the results more trustworthy. We also show that there are contexts in which the introduction of ML introduces strong, unwanted statistical biases. For one, when ML models are used to emulate physical (or first-principles) simulations, they introduce strong confirmation biases. For another, when expressive regressions are used to label datasets, those labels cannot be used in downstream joint or ensemble analyses without taking on uncontrolled biases. The question in the title is being asked of all of the natural sciences; that is, we are calling on the scientific communities to take a step back and consider the role and value of ML in their fields; the (partial) answers we give here come from the particular perspective of physics.
翻訳日:2024-05-29 18:48:53 公開日:2024-05-28
# リフシッツフェルミオン理論における絡み合い

Entanglement in Lifshitz Fermion Theories ( http://arxiv.org/abs/2405.18097v1 )

ライセンス: Link先を確認
Mohammad Javad Vasli, Komeil Babaei Velni, M. Reza Mohammadi Mozaffar, Ali Mollabashi, (参考訳) 1+1)次元自由ディラック-フェルミオン理論における静的絡み合い構造をリフシッツ対称性と任意の整数動的臨界指数を用いて研究する。 このモデルは (Hartmann et al , SciPost Phys. 11, no.2, 031 (2021)) で導入されたものとは異なる。 ディラックフェルミオン・リフシッツ理論は、その絡み合い構造に強く影響を及ぼすスカラー理論とは対照的に局所的である。 動的臨界指数の任意の整数値に対して、この理論の様々な純粋(真空を含む)および混合状態において、任意の部分領域に量子的絡み合いが存在することを示す。 我々の数値的な研究は、この理論の量子絡み合いが上から厳密に拘束されていることを示している。 このような量子絡み合いの束縛やその他の物理的性質は、これらの理論の相関構造から慎重に説明される。 絡み合い構造が真に異なる(2+1)次元への一般化に対処する。

We study the static entanglement structure in (1+1)-dimensional free Dirac-fermion theory with Lifshitz symmetry and arbitrary integer dynamical critical exponent. This model is different from the one introduced in [Hartmann et al., SciPost Phys. 11, no.2, 031 (2021)] due to a proper treatment of the square Laplace operator. Dirac fermion Lifshitz theory is local as opposed to its scalar counterpart which strongly affects its entanglement structure. We show that there is quantum entanglement across arbitrary subregions in various pure (including the vacuum) and mixed states of this theory for arbitrary integer values of the dynamical critical exponent. Our numerical investigations show that quantum entanglement in this theory is tightly bounded from above. Such a bound and other physical properties of quantum entanglement are carefully explained from the correlation structure in these theories. A generalization to (2+1)-dimensions where the entanglement structure is seriously different is addressed.
翻訳日:2024-05-29 18:48:53 公開日:2024-05-28
# 強化学習におけるポントリャーギンの展望

A Pontryagin Perspective on Reinforcement Learning ( http://arxiv.org/abs/2405.18100v1 )

ライセンス: Link先を確認
Onno Eberhard, Claire Vernade, Michael Muehlebach, (参考訳) 強化学習は伝統的に、クローズドループ方式で最適な制御問題を解決するための状態依存ポリシーの学習に重点を置いてきた。 本研究では,固定アクションシーケンスが学習されるオープンループ強化学習のパラダイムを紹介する。 1つの頑健なモデルベース法と2つのサンプル効率なモデルフリー法という3つの新しいアルゴリズムを提案する。 私たちの研究は、ベルマンの方程式を動的プログラミングから基礎づけるのではなく、オープンループ最適制御の理論からポントリャーギンの原理に基づいている。 我々は、振り子の振り上げタスクと2つの高次元の MuJoCo タスクに対して、収束保証を行い、全てのメソッドを経験的に評価し、既存のベースラインと比較して顕著な性能を示す。

Reinforcement learning has traditionally focused on learning state-dependent policies to solve optimal control problems in a closed-loop fashion. In this work, we introduce the paradigm of open-loop reinforcement learning where a fixed action sequence is learned instead. We present three new algorithms: one robust model-based method and two sample-efficient model-free methods. Rather than basing our algorithms on Bellman's equation from dynamic programming, our work builds on Pontryagin's principle from the theory of open-loop optimal control. We provide convergence guarantees and evaluate all methods empirically on a pendulum swing-up task, as well as on two high-dimensional MuJoCo tasks, demonstrating remarkable performance compared to existing baselines.
翻訳日:2024-05-29 18:48:53 公開日:2024-05-28
# エンドツーエンド無線通信のための量子古典的オートエンコーダアーキテクチャ

Quantum-Classical Autoencoder Architectures for End-to-End Radio Communication ( http://arxiv.org/abs/2405.18105v1 )

ライセンス: Link先を確認
Zsolt I. Tabi, Bence Bakó, Dániel T. R. Nagy, Péter Vaderna, Zsófia Kallus, Péter Hága, Zoltán Zimborás, (参考訳) 本稿では、標準符号化無線信号を用いたノイズチャネル条件に対するエンドツーエンド無線通信のためのハイブリッド量子古典型オートエンコーダアーキテクチャについて包括的に研究する。 ハイブリッドシナリオには、シングルサイド、すなわち量子エンコーダ(送信者)または量子デコーダ(受信者)、および完全量子チャネルオートエンコーダ(送信者-受信者)システムが含まれる。 シナリオ毎に詳細な公式を提供し、広範囲なシミュレーションを通してモデルを検証する。 我々の結果は、モデルの堅牢性と適応性を示します。 4-QAMと16-QAMを用いて支援実験を行い、より一般的な符号化方式に適応できると期待する。 付加的な白色ガウスノイズとレイリーフェディングモデルの両方に対するモデル性能について検討する。 私たちの発見は、データ再ロード方法、エンコーディングスキーム、コア層構造など、アプリケーションのパフォーマンス制約を満たすための効率的な量子ニューラルネットワークアーキテクチャの設計の重要性を強調します。 一般的なフレームワークを提供することで、無線通信における量子機械学習アプリケーションのさらなる探索と開発を可能にする。

This paper presents a comprehensive study on the possible hybrid quantum-classical autoencoder architectures for end-to-end radio communication against noisy channel conditions using standard encoded radio signals. The hybrid scenarios include single-sided, i.e., quantum encoder (transmitter) or quantum decoder (receiver), as well as fully quantum channel autoencoder (transmitter-receiver) systems. We provide detailed formulas for each scenario and validate our model through an extensive set of simulations. Our results demonstrate model robustness and adaptability. Supporting experiments are conducted utilizing 4-QAM and 16-QAM schemes and we expect that the model is adaptable to more general encoding schemes. We explore model performance against both additive white Gaussian noise and Rayleigh fading models. Our findings highlight the importance of designing efficient quantum neural network architectures for meeting application performance constraints -- including data re-uploading methods, encoding schemes, and core layer structures. By offering a general framework, this work paves the way for further exploration and development of quantum machine learning applications in radio communication.
翻訳日:2024-05-29 18:48:53 公開日:2024-05-28
# 補間・外挿に向けた統合時間知識グラフ推論モデル

A Unified Temporal Knowledge Graph Reasoning Model Towards Interpolation and Extrapolation ( http://arxiv.org/abs/2405.18106v1 )

ライセンス: Link先を確認
Kai Chen, Ye Wang, Yitong Li, Aiping Li, Han Yu, Xin Song, (参考訳) 時間知識グラフ(TKG)推論には補間推論と補間推論という2つの設定がある。 どちらも多くの研究関心を集めており、大きな意味を持っている。 前者の方法では、事実列間の時間的相関が強調されず、後者の手法では、厳密な時系列的な知識の順序が必要であり、過去の事実の欠如による手がかりの推測は無視される。 これにより、既存のTKG推論手法のほとんどすべてが1つの設定のいずれかに特化して設計されているため、TKGアプリケーションの実行可能性を制限することができる。 そこで本稿では,補間推論と補間推論の両面から,時間的パスに基づく推論(TPAR)モデルを提案する。 TPARは、曖昧でノイズの多い時間データに対して堅牢で、微妙な解釈性を備えた、神経駆動の象徴的推論方式を実行する。 総合的な実験により、TPARは補間と外挿設定の両方においてリンク予測タスクにおいてSOTA法より優れていることが示された。 補間と外挿の推論に対するSOTAとTPARの組み合わせの性能を評価するために,新しいパイプライン実験環境を構築した。 さらに多様な実験を行い、TPARの堅牢性と解釈可能性を示す。

Temporal knowledge graph (TKG) reasoning has two settings: interpolation reasoning and extrapolation reasoning. Both of them draw plenty of research interest and have great significance. Methods of the former de-emphasize the temporal correlations among facts sequences, while methods of the latter require strict chronological order of knowledge and ignore inferring clues provided by missing facts of the past. These limit the practicability of TKG applications as almost all of the existing TKG reasoning methods are designed specifically to address either one setting. To this end, this paper proposes an original Temporal PAth-based Reasoning (TPAR) model for both the interpolation and extrapolation reasoning. TPAR performs a neural-driven symbolic reasoning fashion that is robust to ambiguous and noisy temporal data and with fine interpretability as well. Comprehensive experiments show that TPAR outperforms SOTA methods on the link prediction task for both the interpolation and the extrapolation settings. A novel pipeline experimental setting is designed to evaluate the performances of SOTA combinations and the proposed TPAR towards interpolation and extrapolation reasoning. More diverse experiments are conducted to show the robustness and interpretability of TPAR.
翻訳日:2024-05-29 18:48:53 公開日:2024-05-28
# センチスケール水晶による室温強結合

Strong coupling at room temperature with a centimeter-scale quartz crystal ( http://arxiv.org/abs/2405.18107v1 )

ライセンス: Link先を確認
Davide Tomasella, Santiago Tarrago Velez, Sissel Bay Nielsen, Joost Van der Heijden, Ulrich Busk Hoff, Ulrik Lund Andersen, (参考訳) ブリュアンをベースとした高周波数音響モードの光学系は、量子情報処理と波長変換の応用、およびマクロ量子効果の探索のための有望なプラットフォームを提供する。 電気的ブリルアン相互作用による強い結合は、大質量のメカニカルモードを光学場に結合させることで、機械状態の制御と特性化に不可欠である。 しかし、室温での強いカップリングを達成することは、結合閾値を超えるのに必要なポンプ動力を増大させる高速な機械的崩壊率によって困難であることが証明されている。 本稿では, バルク音響波共振器の強結合機構を実現するために, ポンプパワーと周波数デチューニングを独立に制御したオプティメカルシステムについて報告する。 共振器反射率のスペクトル分析により, 共振器の強度結合, 通常のモード分割, 脱調スペクトルの通過を回避し, メカニカルライン幅$\Gamma_m/2\pi~=~7.13MHz$, 単光子結合率$g_0/2\pi~=~7.76Hz$を推定した。 本結果は,室温マクロメカニカルシステムの性能とハイブリッド量子デバイスへの応用に関する貴重な知見を提供する。

Brillouin-based optomechanical systems with high-frequency acoustic modes provide a promising platform for implementing quantum-information processing and wavelength conversion applications, and for probing macroscopic quantum effects. Achieving strong coupling through electrostrictive Brillouin interaction is essential for coupling the massive mechanical mode to an optical field, thereby controlling and characterizing the mechanical state. However, achieving strong coupling at room temperature has proven challenging due to fast mechanical decay rates, which increase the pumping power required to surpass the coupling threshold. Here, we report an optomechanical system with independent control over pumping power and frequency detuning to achieve and characterize the strong-coupling regime of a bulk acoustic-wave resonator. Through spectral analysis of the cavity reflectivity, we identify clear signatures of strong coupling, i.e., normal-mode splitting and an avoided crossing in the detuned spectra, while estimating the mechanical linewidth $\Gamma_m/2\pi~=~7.13MHz$ and the single-photon coupling rate $g_0/2\pi~=~7.76Hz$ of our system. Our results provide valuable insights into the performances of room-temperature macroscopic mechanical systems and their applications in hybrid quantum devices.
翻訳日:2024-05-29 18:48:53 公開日:2024-05-28
# マルチエージェント強化学習における固有の探索課題としての個人貢献

Individual Contributions as Intrinsic Exploration Scaffolds for Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2405.18110v1 )

ライセンス: Link先を確認
Xinran Li, Zifan Liu, Shibo Chen, Jun Zhang, (参考訳) マルチエージェント強化学習(MARL)では,特にスパース報酬環境において,効果的な探索が重要である。 グローバルな本質的な報酬の導入は、そのような環境での探索を促進することができるが、エージェント間のクレジット割り当てを複雑にすることが多い。 この課題に対処するため,各エージェントの貢献度をグローバルな視点から評価し,探索を動機づける新たなアプローチであるICES(Intrinsic Exploration Scaffolds)を提案する。 特に、ICESはベイジアン・サプライズによる探検用足場を構築し、集中トレーニング中にグローバルな遷移情報を活用する。 これらの足場は訓練でのみ使用され、グローバルな潜伏状態遷移に大きな影響を及ぼすアクションへ個々のエージェントを誘導するのに役立つ。 さらに、ICESは、エクスプロイトポリシーとエクスプロイトポリシーを分離し、前者がトレーニング中に特権付きグローバル情報を利用することを可能にする。 Google Research Football (GRF) や StarCraft Multi-agent Challenge (SMAC) など、粗末な報酬を伴う協調ベンチマークタスクに関する大規模な実験は、ICESがベースラインよりも優れた探索能力を示していることを実証している。 コードはhttps://github.com/LXXXXR/ICESで公開されている。

In multi-agent reinforcement learning (MARL), effective exploration is critical, especially in sparse reward environments. Although introducing global intrinsic rewards can foster exploration in such settings, it often complicates credit assignment among agents. To address this difficulty, we propose Individual Contributions as intrinsic Exploration Scaffolds (ICES), a novel approach to motivate exploration by assessing each agent's contribution from a global view. In particular, ICES constructs exploration scaffolds with Bayesian surprise, leveraging global transition information during centralized training. These scaffolds, used only in training, help to guide individual agents towards actions that significantly impact the global latent state transitions. Additionally, ICES separates exploration policies from exploitation policies, enabling the former to utilize privileged global information during training. Extensive experiments on cooperative benchmark tasks with sparse rewards, including Google Research Football (GRF) and StarCraft Multi-agent Challenge (SMAC), demonstrate that ICES exhibits superior exploration capabilities compared with baselines. The code is publicly available at https://github.com/LXXXXR/ICES.
翻訳日:2024-05-29 18:48:53 公開日:2024-05-28
# ATM: 逆調整マルチエージェントシステムでロバストな検索用発電機を作る

ATM: Adversarial Tuning Multi-agent System Makes a Robust Retrieval-Augmented Generator ( http://arxiv.org/abs/2405.18111v1 )

ライセンス: Link先を確認
Junda Zhu, Lingyong Yan, Haibo Shi, Dawei Yin, Lei Sha, (参考訳) 大言語モデル(LLM)は、知識集約的な質問に直面する幻覚の緩和において、検索の増強から多くの恩恵を受けていることが証明されている。 Retrieval-augmented Generation (RAG)は、意味関連文書をジェネレータの入力コンテキストとして利用し、外部知識注入を実現する。 しかし、LLMが生成したコンテンツが溢れている今日のインターネットでは、LLMが生成した「関連性はあるが役に立たない」文書や、LLMが作成した偽の知識が多すぎるため、ジェネレータに余分なノイズを発生させ、正しい結果を出すのを妨げてしまう。 そこで本研究では,RAG生成モデルのトレーニングをマルチエージェント対逆防御システムとみなし,RAGパイプラインにおけるジェネレータのロバスト性を高めるために,ATM(Adversarial Tuning)システムにおいて,特定の文書が質問に答えるのに役立つかどうかを判断する。 マルチエージェント反復チューニングのラウンドの後、ATMジェネレータは最終的にLDM製造において有用な文書を識別し、強力なベースラインよりも優れた性能を達成できることがわかった。

Large language model (LLM) has proven to benefit a lot from retrieval augmentation in alleviating hallucinations confronted with knowledge-intensive questions. Retrieval-augmented generation (RAG) adopts IR-based techniques utilizing semantic-relevant documents as the generator's input context and realizes external knowledge injection. However, on today's Internet which is flooded with content generated by LLMs, there are too many "related yet useless" documents or even fake knowledge fabricated by LLMs, which will introduce extra noise to the generator and distract it from giving correct results. To this end, we regard the training of the RAG generator model as a multi-agent adversarial-defensive system, guiding the generator to have a better taste of whether a specific document helps answer the question through the Adversarial Tuning in a Multi-agent (ATM) system to strengthen the generator's robustness in an RAG pipeline. After rounds of multi-agent iterative tuning, we find that the ATM Generator can eventually discriminate useful documents amongst LLM fabrications and achieve better performance than strong baselines.
翻訳日:2024-05-29 18:48:53 公開日:2024-05-28
# オンライン求人・求人のための大規模言語モデルの多目的・多行動連携

Facilitating Multi-Role and Multi-Behavior Collaboration of Large Language Models for Online Job Seeking and Recruiting ( http://arxiv.org/abs/2405.18113v1 )

ライセンス: Link先を確認
Hongda Sun, Hongzhan Lin, Haiyu Yan, Chen Zhu, Yang Song, Xin Gao, Shuo Shang, Rui Yan, (参考訳) オンライン求人サービスの出現は、求職と求職の伝統的な状況に革命をもたらし、質の高い工業用アプリケーションの開発を必要としている。 既存のメソッドは通常、履歴書とジョブ記述の潜在意味論をモデル化し、それらの間の一致する関数を学習する。 大規模言語モデル (LLM) の強力なロールプレイング能力に触発されて, LLM によるインタビュアーと候補者のモックインタビュープロセスを導入することを提案する。 模擬面接会話は、候補者評価のための追加の証拠を提供することができ、履歴書や求人情報のみに基づく従来の人事適合性を高めることができる。 しかしながら、これら2つの役割をオンライン採用で特徴づけることには、インタビュー質問を提起するスキルの開発、適切な回答の定式化、両面のフィットネスの評価など、いくつかの課題がある。 そこで本研究では,モックインタビュー生成とハンドシェイクプロトコルにおける双方向評価の2つのモジュールにパーソナライズされたマッチングプロセスを分割する,新たなフレームワークであるMockLLMを提案する。 ロールプレイング・フレームワークをマルチロール・マルチビヘイビア・パラダイムとして設計し,一方のLDMエージェントが双方の複数の機能で効果的に動作できるようにする。 さらに,両面の動作を改良するためのリフレクションメモリ生成と動的プロンプト修正手法を提案し,付加的な付加的証拠の連続的最適化を実現した。 大規模な実験結果から,MockLLMはモックインタビューの質が向上し,将来的なオンライン求人への活用が期待できる可能性が示唆された。

The emergence of online recruitment services has revolutionized the traditional landscape of job seeking and recruitment, necessitating the development of high-quality industrial applications to improve person-job fitting. Existing methods generally rely on modeling the latent semantics of resumes and job descriptions and learning a matching function between them. Inspired by the powerful role-playing capabilities of Large Language Models (LLMs), we propose to introduce a mock interview process between LLM-played interviewers and candidates. The mock interview conversations can provide additional evidence for candidate evaluation, thereby augmenting traditional person-job fitting based solely on resumes and job descriptions. However, characterizing these two roles in online recruitment still presents several challenges, such as developing the skills to raise interview questions, formulating appropriate answers, and evaluating two-sided fitness. To this end, we propose MockLLM, a novel applicable framework that divides the person-job matching process into two modules: mock interview generation and two-sided evaluation in handshake protocol, jointly enhancing their performance through collaborative behaviors between interviewers and candidates. We design a role-playing framework as a multi-role and multi-behavior paradigm to enable a single LLM agent to effectively behave with multiple functions for both parties. Moreover, we propose reflection memory generation and dynamic prompt modification techniques to refine the behaviors of both sides, enabling continuous optimization of the augmented additional evidence. Extensive experimental results show that MockLLM can achieve the best performance on person-job matching accompanied by high mock interview quality, envisioning its emerging application in real online recruitment in the future.
翻訳日:2024-05-29 18:48:53 公開日:2024-05-28
# The Knesset Corpus: Annotated Corpus of Hebrew Parliamentary Proceedings

The Knesset Corpus: An Annotated Corpus of Hebrew Parliamentary Proceedings ( http://arxiv.org/abs/2405.18115v1 )

ライセンス: Link先を確認
Gili Goldin, Nick Howell, Noam Ordan, Ella Rabinovich, Shuly Wintner, (参考訳) 我々は、1998年から2022年にかけてイスラエル議会で行われた全ての(議会および委員会)議定書から3000万件以上の文(3億8400万枚以上のトークン)を含むヘブライ議会手続のコーパスであるクネセト・コーパスを提示する。 文章にはモルフォ・シンタクティック情報に注釈が付けられており、私たちが編纂した議員や派閥の大規模なデータベースに基づいて、話者の人口統計学的・政治的特性を反映した詳細なメタ情報に関連付けられている。 本稿では,コーパスの構造と構成,およびそれに適用した各種処理手順について論じる。 この新たなデータセットの有用性を示すために,2つのユースケースを提案する。 コーパスは、時間とともに手続きにおける語彙豊かさの低下を示すことによって、政治的議論のスタイルの歴史的展開を調べるのに利用できることを示す。 また,男性話者と女性話者のスタイルの違いについても検討した。 これらのユースケースは、イスラエル社会における重要なトレンドに光を当て、言語学、政治科学、コミュニケーション、法律などの研究を支援するためのコーパスの可能性を示すものである。

We present the Knesset Corpus, a corpus of Hebrew parliamentary proceedings containing over 30 million sentences (over 384 million tokens) from all the (plenary and committee) protocols held in the Israeli parliament between 1998 and 2022. Sentences are annotated with morpho-syntactic information and are associated with detailed meta-information reflecting demographic and political properties of the speakers, based on a large database of parliament members and factions that we compiled. We discuss the structure and composition of the corpus and the various processing steps we applied to it. To demonstrate the utility of this novel dataset we present two use cases. We show that the corpus can be used to examine historical developments in the style of political discussions by showing a reduction in lexical richness in the proceedings over time. We also investigate some differences between the styles of men and women speakers. These use cases exemplify the potential of the corpus to shed light on important trends in the Israeli society, supporting research in linguistics, political science, communication, law, etc.
翻訳日:2024-05-29 18:39:08 公開日:2024-05-28
# 全エピソードにおける目標到達保証によるエージェント学習改善の試み

An approach to improve agent learning via guaranteeing goal reaching in all episodes ( http://arxiv.org/abs/2405.18118v1 )

ライセンス: Link先を確認
Pavel Osinenko, Grigory Yaremenko, Georgiy Malaniya, Anton Bolychev, (参考訳) 強化学習は、マルコフ決定過程における累積報酬の最大化の問題に一般的に関係している。 しばしば、ある目標状態または状態空間の部分集合が最大報酬を得る。 そのような場合、目標に達すると環境が解決される可能性がある。 学習や非学習に基づく多くのテクニックが環境解決のために存在するのに対して、最適に行うことが最大の課題です。 例えば、アクションの努力を罰する報酬率を選択することができる。 現在、強化学習は、蓄積された報酬を最大化することで最適な環境を解決するための最も活発なフレームワークの1つである。 しかし、チューニングエージェントは、一連の研究で報告されているように、非常に難しいタスクである。 本研究の目的は,環境問題にのみ対応可能な基本方針の目標を達成しつつ,エージェントが最適に近い政策を効率的に学習できるようにすることである。 我々は、かなり柔軟で、批判者を構成する限り、事実上あらゆるエージェントを増強するために使用できるアルゴリズムを提案する。 目標到達特性の正式な証明が提供される。 ベンチマークされたエージェントを含む5つのエージェントの6つの問題に関するシミュレーション実験は、目標到達性を確保しながら学習を実際に促進できるという実証的な証拠を提供した。

Reinforcement learning is commonly concerned with problems of maximizing accumulated rewards in Markov decision processes. Oftentimes, a certain goal state or a subset of the state space attain maximal reward. In such a case, the environment may be considered solved when the goal is reached. Whereas numerous techniques, learning or non-learning based, exist for solving environments, doing so optimally is the biggest challenge. Say, one may choose a reward rate which penalizes the action effort. Reinforcement learning is currently among the most actively developed frameworks for solving environments optimally by virtue of maximizing accumulated reward, in other words, returns. Yet, tuning agents is a notoriously hard task as reported in a series of works. Our aim here is to help the agent learn a near-optimal policy efficiently while ensuring a goal reaching property of some basis policy that merely solves the environment. We suggest an algorithm, which is fairly flexible, and can be used to augment practically any agent as long as it comprises of a critic. A formal proof of a goal reaching property is provided. Simulation experiments on six problems under five agents, including the benchmarked one, provided an empirical evidence that the learning can indeed be boosted while ensuring goal reaching property.
翻訳日:2024-05-29 18:39:08 公開日:2024-05-28
# ロスレス圧縮機を用いたマルチスペクトル時系列からの低リソース作物分類

Low-Resource Crop Classification from Multi-Spectral Time Series Using Lossless Compressors ( http://arxiv.org/abs/2405.18119v1 )

ライセンス: Link先を確認
Wei Cheng, Hongrui Ye, Xiao Wen, Jiachen Zhang, Jiping Xu, Feifan Zhang, (参考訳) 深層学習は多スペクトル時間データを用いた作物分類の精度を大幅に向上させた。 しかし、これらのモデルは多数のパラメータを持つ複雑な構造を持ち、大量のデータと高価な訓練を必要とする。 ラベル付きサンプルが少ない低リソース環境では、深層学習モデルは不十分なデータのために性能が悪い。 逆に、圧縮機はデータ型非依存であり、非パラメトリック法は基礎となる仮定をもたらすことはない。 この知見に触発されて、これらの状況に対処することを目的として、ディープラーニングモデルに代わる訓練を受けない代替案を提案する。 具体的には、反射率を記号表現に変換するシンボリック表現モジュールが提案されている。 シンボル表現は、チャネルと時間次元の両方でクロス変換され、シンボリック埋め込みを生成する。 次に、MNCD(Multiscale Normalized Compression Distance)は、2つのシンボル埋め込み間の相関を測定するように設計されている。 最後に、MNCDに基づいて、k-nearest-neighbor分類器kNNのみを用いて高品質な作物分類を行うことができる。 フレームワーク全体が使用可能で軽量です。 トレーニングなしでは、平均して7つの高度なディープラーニングモデルが3つのベンチマークデータセットで大規模にトレーニングされている。 また、これらのモデルの半数以上を、粗雑な作物ラベルで数ショットで上回っている。 したがって、我々の非学習フレームワークの高性能と堅牢性は、実世界の作物マッピングに真に適用できる。 コードは、https://github.com/qinfengsama/Compressor-Based-Crop-Mapping.comで入手できる。

Deep learning has significantly improved the accuracy of crop classification using multispectral temporal data. However, these models have complex structures with numerous parameters, requiring large amounts of data and costly training. In low-resource situations with fewer labeled samples, deep learning models perform poorly due to insufficient data. Conversely, compressors are data-type agnostic, and non-parametric methods do not bring underlying assumptions. Inspired by this insight, we propose a non-training alternative to deep learning models, aiming to address these situations. Specifically, the Symbolic Representation Module is proposed to convert the reflectivity into symbolic representations. The symbolic representations are then cross-transformed in both the channel and time dimensions to generate symbolic embeddings. Next, the Multi-scale Normalised Compression Distance (MNCD) is designed to measure the correlation between any two symbolic embeddings. Finally, based on the MNCDs, high quality crop classification can be achieved using only a k-nearest-neighbor classifier kNN. The entire framework is ready-to-use and lightweight. Without any training, it outperformed, on average, 7 advanced deep learning models trained at scale on three benchmark datasets. It also outperforms more than half of these models in the few-shot setting with sparse crop labels. Therefore, the high performance and robustness of our non-training framework makes it truly applicable to real-world crop mapping. Codes are available at: https://github.com/qinfengsama/Compressor-Based-Crop-Mapping.
翻訳日:2024-05-29 18:39:08 公開日:2024-05-28
# PyTAG:マルチエージェント強化学習のためのテーブルトップゲーム

PyTAG: Tabletop Games for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2405.18123v1 )

ライセンス: Link先を確認
Martin Balla, George E. M. Long, James Goodman, Raluca D. Gaina, Diego Perez-Liebana, (参考訳) 現代卓上ゲームは多エージェント強化学習に様々な興味深い課題を提示している。 本稿では,Tabletop Gamesフレームワークで実装されたゲーム集合とのインタラクションを支援する新しいフレームワークであるPyTAGを紹介する。 この研究では、テーブルトップゲームがもたらす課題と、ゲームプレイングエージェントの観点から、将来の研究の機会を強調します。 さらに、これらのゲームで強化学習エージェントを訓練する際の技術的課題も強調する。 PyTAGが提供したマルチエージェント設定を探索するため,ゲームサブセット上でのセルフプレイを用いた人気のポリシ最適化強化学習アルゴリズムを訓練し,テーブルトップゲームフレームワークに実装されたいくつかの単純なエージェントやモンテカルロ木探索に対するトレーニングされたポリシーを評価する。

Modern Tabletop Games present various interesting challenges for Multi-agent Reinforcement Learning. In this paper, we introduce PyTAG, a new framework that supports interacting with a large collection of games implemented in the Tabletop Games framework. In this work we highlight the challenges tabletop games provide, from a game-playing agent perspective, along with the opportunities they provide for future research. Additionally, we highlight the technical challenges that involve training Reinforcement Learning agents on these games. To explore the Multi-agent setting provided by PyTAG we train the popular Proximal Policy Optimisation Reinforcement Learning algorithm using self-play on a subset of games and evaluate the trained policies against some simple agents and Monte-Carlo Tree Search implemented in the Tabletop Games framework.
翻訳日:2024-05-29 18:39:08 公開日:2024-05-28
# 高画質画像復調用デュアルパスマルチスケール変圧器

Dual-Path Multi-Scale Transformer for High-Quality Image Deraining ( http://arxiv.org/abs/2405.18124v1 )

ライセンス: Link先を確認
Huiling Zhou, Xianhao Wu, Hongming Chen, (参考訳) 畳み込みニューラルネットワーク(CNN)とトランスフォーマーが単一イメージの雨除去に優れているにもかかわらず、現在のマルチスケールモデルは単一スケールの特徴ピラミッドパターンに依存しているため、依然として重大な課題に直面している。 本稿では,リッチなマルチスケール情報を活用した高画質画像再構成のための効果的な雨除去手法であるデュアルパスマルチスケールトランス (DPMformer) を提案する。 この方法は、2つの異なるマルチスケールアプローチからのバックボーンパスと2つの分岐パスから構成される。 具体的には、1つの経路が粗大な戦略を採用し、画像を1/2スケールと1/4スケールに段階的にダウンサンプリングすることで、小規模の降雨情報融合を捉えるのに役立つ。 同時に、マルチパッチ重畳モデル(サイズ2と4の重複しないブロック)を用いて、他の経路におけるディープネットワークの特徴情報を強化する。 バックボーンパスは,よりリッチな特徴のブレンドを学習するために,マルチスケール情報を完全に活用し,高品質な降雨除去画像再構成を実現する。 ベンチマークデータセットの大規模な実験により,本手法が他の最先端手法と比較して有望な性能を達成することを示す。

Despite the superiority of convolutional neural networks (CNNs) and Transformers in single-image rain removal, current multi-scale models still face significant challenges due to their reliance on single-scale feature pyramid patterns. In this paper, we propose an effective rain removal method, the dual-path multi-scale Transformer (DPMformer) for high-quality image reconstruction by leveraging rich multi-scale information. This method consists of a backbone path and two branch paths from two different multi-scale approaches. Specifically, one path adopts the coarse-to-fine strategy, progressively downsampling the image to 1/2 and 1/4 scales, which helps capture fine-scale potential rain information fusion. Simultaneously, we employ the multi-patch stacked model (non-overlapping blocks of size 2 and 4) to enrich the feature information of the deep network in the other path. To learn a richer blend of features, the backbone path fully utilizes the multi-scale information to achieve high-quality rain removal image reconstruction. Extensive experiments on benchmark datasets demonstrate that our method achieves promising performance compared to other state-of-the-art methods.
翻訳日:2024-05-29 18:39:08 公開日:2024-05-28
# Graph Coarsening with Message-Passing Guarantees

Graph Coarsening with Message-Passing Guarantees ( http://arxiv.org/abs/2405.18127v1 )

ライセンス: Link先を確認
Antonin Joly, Nicolas Keriven, (参考訳) グラフ粗化(Graph coarsening)は、計算負荷とメモリフットプリントを減らすために多くのアプリケーションで使用されている主要な特性のいくつかを保存しながら、大きなグラフのサイズを小さくすることを目的としている。 例えば、グラフ機械学習では、粗いグラフ上でグラフニューラルネットワーク(GNN)をトレーニングすることで、時間とメモリの大幅な節約につながる。 しかし、GNNはMessage-Passing(MP)パラダイムに依存しており、グラフ粗大化に対する古典的なスペクトル保存保証は、粗大化グラフ上で単純メッセージパッシングを行う場合の理論的保証に直接導かない。 本研究では, 粗いグラフに特有の新しいメッセージパス操作を提案し, 伝搬信号の保存に関する理論的保証を示す。 興味深いことに、以前の提案から大きく離れている中で、粗いグラフに対するこの操作は、元のグラフが無向である場合でも、指向的である。 我々は合成データと実データに対してノード分類タスクを行い、粗いグラフ上で単純メッセージパッシングを行うのと比べて改善された結果を観察する。

Graph coarsening aims to reduce the size of a large graph while preserving some of its key properties, which has been used in many applications to reduce computational load and memory footprint. For instance, in graph machine learning, training Graph Neural Networks (GNNs) on coarsened graphs leads to drastic savings in time and memory. However, GNNs rely on the Message-Passing (MP) paradigm, and classical spectral preservation guarantees for graph coarsening do not directly lead to theoretical guarantees when performing naive message-passing on the coarsened graph. In this work, we propose a new message-passing operation specific to coarsened graphs, which exhibit theoretical guarantees on the preservation of the propagated signal. Interestingly, and in a sharp departure from previous proposals, this operation on coarsened graphs is oriented, even when the original graph is undirected. We conduct node classification tasks on synthetic and real data and observe improved results compared to performing naive message-passing on the coarsened graph.
翻訳日:2024-05-29 18:39:08 公開日:2024-05-28
# 自己監督型デュアルコントゥーリング

Self-Supervised Dual Contouring ( http://arxiv.org/abs/2405.18131v1 )

ライセンス: Link先を確認
Ramana Sundararaman, Roman Klokov, Maks Ovsjanikov, (参考訳) 学習に基づく等地抽出法は、最近、公理的手法の頑健で効率的な代替手段として出現している。 しかし、そのようなアプローチの大多数は、公理的に計算された基底真理による教師あり訓練に依存しており、それによって対応する公理的手法のバイアスやデータアーティファクトを継承する可能性がある。 このような依存関係を回避して,ニューラルデュアルコンチューリングメッシュフレームワークのための自己教師型トレーニングスキームを提案し,その結果,SDC(Self Supervised Dual Contouring)という手法が得られた。 予測メッシュ頂点を教師付きトレーニングで最適化する代わりに、2つの新しい自己教師付き損失関数を使用して、生成されたメッシュ間の距離を1階まで調整する。 SDCによって再構成されたメッシュは、入力の不規則性に対してより堅牢でありながら、複雑な詳細をキャプチャする既存のデータ駆動手法を超越している。 さらに,推定メッシュと入力SDFをリンクする自己教師型学習目標を用いて,Deep Implicit Networks (DINs) のトレーニングプロセスを標準化する。 得られたDINが高次暗黙関数を生成することを実証し、最終的に異なる入力モダリティに対する以前のベースラインと比較して、より正確で詳細な保存面が得られることを示した。 最後に、予測されたSDFと出力メッシュの協調訓練を行うことにより、単視点再構築作業における自己監督的損失がメッシュ性能を向上させることを示す。 私たちは、https://github.com/Sentient07/SDCでコードをオープンソース化しました。

Learning-based isosurface extraction methods have recently emerged as a robust and efficient alternative to axiomatic techniques. However, the vast majority of such approaches rely on supervised training with axiomatically computed ground truths, thus potentially inheriting biases and data artifacts of the corresponding axiomatic methods. Steering away from such dependencies, we propose a self-supervised training scheme for the Neural Dual Contouring meshing framework, resulting in our method: Self-Supervised Dual Contouring (SDC). Instead of optimizing predicted mesh vertices with supervised training, we use two novel self-supervised loss functions that encourage the consistency between distances to the generated mesh up to the first order. Meshes reconstructed by SDC surpass existing data-driven methods in capturing intricate details while being more robust to possible irregularities in the input. Furthermore, we use the same self-supervised training objective linking inferred mesh and input SDF, to regularize the training process of Deep Implicit Networks (DINs). We demonstrate that the resulting DINs produce higher-quality implicit functions, ultimately leading to more accurate and detail-preserving surfaces compared to prior baselines for different input modalities. Finally, we demonstrate that our self-supervised losses improve meshing performance in the single-view reconstruction task by enabling joint training of predicted SDF and resulting output mesh. We open-source our code at https://github.com/Sentient07/SDC
翻訳日:2024-05-29 18:39:08 公開日:2024-05-28
# EG4D: スコア蒸留のない4Dオブジェクトの明示的生成

EG4D: Explicit Generation of 4D Object without Score Distillation ( http://arxiv.org/abs/2405.18132v1 )

ライセンス: Link先を確認
Qi Sun, Zhiyang Guo, Ziyu Wan, Jing Nathan Yan, Shengming Yin, Wengang Zhou, Jing Liao, Houqiang Li, (参考訳) 近年、デザインやゲームアプリケーションにおける動的な3Dアセットの需要が高まっており、高品質な4Dオブジェクトを合成できる強力な生成パイプラインが生まれている。 従来の方法では、4Dオブジェクトの見えないビューや動きを推測するためにスコア蒸留サンプリング (SDS) アルゴリズムが一般的であったため、過飽和やジャヌス問題といった欠陥による不満足な結果に繋がった。 そこで本研究では,映像拡散モデルの最近の進歩に触発されて,複数視点映像を1つの入力画像から明示的に生成することで,4次元表現を最適化することを提案する。 しかし、このようなパイプラインが直面する現実的な課題、例えば劇的な時間的不整合、フレーム間形状とテクスチャの多様性、ビデオ生成結果による意味的欠陥などを扱うのは簡単ではない。 これらの課題に対処するため,DG4Dを提案する。DG4Dは,高品質で一貫した4Dアセットを生成する新しい多段階フレームワークである。 具体的には、時間的一貫性のある多視点映像を合成するための注意注入戦略、ガウススプラッティングに基づく堅牢で効率的な動的再構成法、意味的復元に先立って拡散した改良段階を含む、協調的な技術とソリューションを開発する。 定性的な結果とユーザ嗜好の研究は、我々のフレームワークが生成品質のベースラインをかなりのマージンで上回っていることを示している。 コードは \url{https://github.com/jasongzy/EG4D} でリリースされる。

In recent years, the increasing demand for dynamic 3D assets in design and gaming applications has given rise to powerful generative pipelines capable of synthesizing high-quality 4D objects. Previous methods generally rely on score distillation sampling (SDS) algorithm to infer the unseen views and motion of 4D objects, thus leading to unsatisfactory results with defects like over-saturation and Janus problem. Therefore, inspired by recent progress of video diffusion models, we propose to optimize a 4D representation by explicitly generating multi-view videos from one input image. However, it is far from trivial to handle practical challenges faced by such a pipeline, including dramatic temporal inconsistency, inter-frame geometry and texture diversity, and semantic defects brought by video generation results. To address these issues, we propose DG4D, a novel multi-stage framework that generates high-quality and consistent 4D assets without score distillation. Specifically, collaborative techniques and solutions are developed, including an attention injection strategy to synthesize temporal-consistent multi-view videos, a robust and efficient dynamic reconstruction method based on Gaussian Splatting, and a refinement stage with diffusion prior for semantic restoration. The qualitative results and user preference study demonstrate that our framework outperforms the baselines in generation quality by a considerable margin. Code will be released at \url{https://github.com/jasongzy/EG4D}.
翻訳日:2024-05-29 18:39:08 公開日:2024-05-28
# 宇宙における安全臨界システムにRustをもたらす

Bringing Rust to Safety-Critical Systems in Space ( http://arxiv.org/abs/2405.18135v1 )

ライセンス: Link先を確認
Lukas Seidel, Julian Beier, (参考訳) 安全クリティカルな航空宇宙システムの開発は伝統的にC言語に支配されている。 その言語特性は、誤ってメモリの安全性の問題を導入し、未定義の振る舞いやセキュリティ上の脆弱性を引き起こすことを簡単にする。 Rust言語は、バグ導入の可能性を劇的に削減し、全体としてより安全で安全なコードを生成することを目的としている。 しかし、寿命が比較的短いため、安全クリティカルな環境への産業適応はいまだに不足している。 この作業は、Rustで安全クリティカルな宇宙システムを開発するための一連のレコメンデーションを提供する。 私たちのレコメンデーションは,より安全でセキュアな航空宇宙システムに対する,多面的なコントリビューションからの洞察に基づいています。 次に、Rustで部分的にCベースのシステムを書き換える手順を紹介します。 書き換えケーススタディの実行中に、人気のあるオープンソースの衛星通信プロトコルにおいて、未発見の脆弱性3つを特定し、修正する。 最後に、ベアメタルPowerPC用の新しいRustコンパイラターゲット構成を導入する。 これにより、アーキテクチャは、例えばジェームズ・ウェッブ宇宙望遠鏡(英語版)の領域でよく見られるので、宇宙指向プロジェクトにおけるRustの適用性を広げることを目指している。

The development of safety-critical aerospace systems is traditionally dominated by the C language. Its language characteristics make it trivial to accidentally introduce memory safety issues resulting in undefined behavior or security vulnerabilities. The Rust language aims to drastically reduce the chance of introducing bugs and consequently produces overall more secure and safer code. However, due to its relatively short lifespan, industry adaption in safety-critical environments is still lacking. This work provides a set of recommendations for the development of safety-critical space systems in Rust. Our recommendations are based on insights from our multi-fold contributions towards safer and more secure aerospace systems: We provide a comprehensive overview of ongoing efforts to adapt Rust for safety-critical system programming, highlighting its potential to enhance system robustness. Next, we introduce a procedure for partially rewriting C-based systems in Rust, offering a pragmatic pathway to improving safety without necessitating a full system overhaul. During the execution of our rewriting case study, we identify and fix three previously undiscovered vulnerabilities in a popular open-source satellite communication protocol. Finally, we introduce a new Rust compiler target configuration for bare metal PowerPC. With this, we aim to broaden Rust's applicability in space-oriented projects, as the architecture is commonly encountered in the domain, e.g., in the James Webb Space Telescope.
翻訳日:2024-05-29 18:39:08 公開日:2024-05-28
# LLM量子化の爆発

Exploiting LLM Quantization ( http://arxiv.org/abs/2405.18137v1 )

ライセンス: Link先を確認
Kazuki Egashira, Mark Vero, Robin Staab, Jingxuan He, Martin Vechev, (参考訳) 量子化は低精度の重みを利用するため、大型言語モデル(LLM)のメモリ使用量を削減し、コモディティハードウェアへの展開を可能にする重要な技術である。 LLM量子化の実用性への影響は広く研究されているが、この研究はセキュリティの観点からその悪影響を初めて研究した。 広範に使われている量子化手法は、悪意のある量子化モデルをデプロイするようユーザを騙しかねないが、有害な量子化 LLM を生成するために活用できることを明らかにする。 3段階の攻撃フレームワークを使って、この脅威を実証する。 (i)まず、敵のタスクを微調整して悪意あるLSMを得る。 次に、悪意のあるモデルを定量化し、同じ量子化モデルにマップする全精度モデルを特徴付ける制約を計算する。 三 最後に、予測勾配降下を用いて、全精度モデルから有毒な挙動を調整し、その重みがステップで計算した制約を満たすことを保証する。 (II)。 この手順は、完全な精度で良性挙動を示すLLMを導出するが、量子化されると、ステップ内で注入される逆挙動に従う。 (i)。 脆弱性のあるコード生成、コンテンツインジェクション、過剰な拒否攻撃の3つのシナリオで、このような攻撃の有効性と深刻さを実験的に示す。 実際には、Hugging FaceのようなLLMコミュニティハブ上で、結果の完全な精度モデルをホストすることができ、悪意のある量子化されたバージョンをデバイスにデプロイする脅威に数百万のユーザをさらけ出した。

Quantization leverages lower-precision weights to reduce the memory usage of large language models (LLMs) and is a key technique for enabling their deployment on commodity hardware. While LLM quantization's impact on utility has been extensively explored, this work for the first time studies its adverse effects from a security perspective. We reveal that widely used quantization methods can be exploited to produce a harmful quantized LLM, even though the full-precision counterpart appears benign, potentially tricking users into deploying the malicious quantized model. We demonstrate this threat using a three-staged attack framework: (i) first, we obtain a malicious LLM through fine-tuning on an adversarial task; (ii) next, we quantize the malicious model and calculate constraints that characterize all full-precision models that map to the same quantized model; (iii) finally, using projected gradient descent, we tune out the poisoned behavior from the full-precision model while ensuring that its weights satisfy the constraints computed in step (ii). This procedure results in an LLM that exhibits benign behavior in full precision but when quantized, it follows the adversarial behavior injected in step (i). We experimentally demonstrate the feasibility and severity of such an attack across three diverse scenarios: vulnerable code generation, content injection, and over-refusal attack. In practice, the adversary could host the resulting full-precision model on an LLM community hub such as Hugging Face, exposing millions of users to the threat of deploying its malicious quantized version on their devices.
翻訳日:2024-05-29 18:39:08 公開日:2024-05-28
# Unlocking Futures: コンピュータサイエンスとソフトウェア工学の学生のための自然言語駆動キャリア予測システム

Unlocking Futures: A Natural Language Driven Career Prediction System for Computer Science and Software Engineering Students ( http://arxiv.org/abs/2405.18139v1 )

ライセンス: Link先を確認
Sakir Hossain Faruque, Sharun Akter Khushbu, Sharmin Akter, (参考訳) キャリアは、どんな人にとっても、一生懸命働くことで自分の欲求を満たすための重要な側面である。 研究期間中、生徒はスキルに合わせた有意義な指導を受けない限り、最高のキャリア提案を見つけることはできない。 そこで我々は,より優れたキャリア提案を提供するために,早期予測のためのAI支援モデルを開発した。 タスクは難しいが、適切なガイダンスが簡単にできる。 効果的なキャリアガイダンスには、学生の学術的スキル、興味、スキル関連の活動を理解する必要がある。 本研究では,コンピュータサイエンス(CS)とソフトウェア工学(SWE)の学生から必須情報を収集し,学生のキャリア関連情報に基づいてキャリアパスを予測する機械学習(ML)モデルを訓練した。 モデルを適切にトレーニングするために、自然言語処理(NLP)技術と完了データセット前処理を適用した。 比較分析では,複数の分類MLアルゴリズムとディープラーニング(DL)アルゴリズムを用いた。 本研究は,CS学生とSWE学生の独特な特徴に基づいて,特定のキャリア提案を提供することによって,教育指導に貴重な洞察を与えるものである。 さらに、この研究は、CSとSWEの学生がスキル、興味、スキル関連の活動に合う適切な仕事を見つけるのに役立つ。

A career is a crucial aspect for any person to fulfill their desires through hard work. During their studies, students cannot find the best career suggestions unless they receive meaningful guidance tailored to their skills. Therefore, we developed an AI-assisted model for early prediction to provide better career suggestions. Although the task is difficult, proper guidance can make it easier. Effective career guidance requires understanding a student's academic skills, interests, and skill-related activities. In this research, we collected essential information from Computer Science (CS) and Software Engineering (SWE) students to train a machine learning (ML) model that predicts career paths based on students' career-related information. To adequately train the models, we applied Natural Language Processing (NLP) techniques and completed dataset pre-processing. For comparative analysis, we utilized multiple classification ML algorithms and deep learning (DL) algorithms. This study contributes valuable insights to educational advising by providing specific career suggestions based on the unique features of CS and SWE students. Additionally, the research helps individual CS and SWE students find suitable jobs that match their skills, interests, and skill-related activities.
翻訳日:2024-05-29 18:39:08 公開日:2024-05-28
# 計測に基づく量子コンピューティングにおけるシモンアルゴリズム

Simon algorithm in measurement-based quantum computing ( http://arxiv.org/abs/2405.18143v1 )

ライセンス: Link先を確認
Maximilian Schwetz, Reinhard M. Noack, (参考訳) シモンの隠蔽部分群アルゴリズムは、量子コンピューティングが複雑性の点で古典コンピューティングよりも優れていることを証明した最初の量子アルゴリズムであった。 測定ベース量子コンピューティング(英: Measurement-based quantum computing、MBQC)は、量子コンピューティングの定式化であり、計算能力は同等であるが、実験や量子アルゴリズムのコア力学の表示において有利である。 MBQCの言語へのSimonアルゴリズムの再構成を、詳細は2つのキュービットと$n$キュービットのスキーマで提示する。 我々は、量子状態と演算子のグラフィカルなテンソル記述であるZX計算の枠組みを用いて、アルゴリズムの回路記述をMBQCと一致した形式に変換する。 2キュービットのSimonアルゴリズムの結果は、10キュービットのクラスタ状態であり、単一のキュービットの測定で所望の情報を取り出すのに十分である。 さらに、Simonアルゴリズムの$n$-qubitバージョンは、2n$ノードと$n^2$エッジを持つクラスタ状態グラフとしてMBQCで定式化可能であることを示す。 これは、古典的アルゴリズムよりも指数関数的に高速な量子アルゴリズムのMBQCの定式化の例である。 このように、この定式化は、そのような確立されたアルゴリズムのコア力学を理解するのに役立ち、実験的な実装の青写真として機能する。

Simon's hidden subgroup algorithm was the first quantum algorithm to prove the superiority of quantum computing over classical computing in terms of complexity. Measurement-based quantum computing (MBQC) is a formulation of quantum computing that, while equivalent in terms of computational power, can be advantageous in experiments and in displaying the core mechanics of quantum algorithms. We present a reformulation of the Simon algorithm into the language of MBQC -- in detail for two qubits and schematically for $n$ qubits. We utilize the framework of ZX-calculus, a graphical tensor description of quantum states and operators, to translate the circuit description of the algorithm into a form concordant with MBQC. The result for the two-qubit Simon algorithm is a ten-qubit cluster state on which single-qubit measurements suffice to extract the desired information. Additionally, we show that the $n$-qubit version of the Simon algorithm can be formulated in MBQC as cluster state graph with $2n$ nodes and $n^2$ edges. This is an example of the MBQC formulation of a quantum algorithm that is exponentially faster than its classical counterpart. As such, this formulation should aid in understanding the core mechanics of such an established algorithm and could serve as a blueprint for experimental implementation.
翻訳日:2024-05-29 18:39:08 公開日:2024-05-28
# メモリ効率の良いネットワークトレーニングのための4ビットシャンプー

4-bit Shampoo for Memory-Efficient Network Training ( http://arxiv.org/abs/2405.18144v1 )

ライセンス: Link先を確認
Sike Wang, Jia Li, Pan Zhou, Hua Huang, (参考訳) プリコンディショナーと呼ばれる行列を維持する二階最適化器は理論と実践の両方において一階最適化器よりも優れている。 プレコンディショナーを構成する状態とその逆根は、二階最適化器によって訓練されたモデルの最大サイズを制限する。 これを解決するため、32ビットオプティマイザステートを圧縮してビット幅を小さくすることで、メモリ使用量の削減が期待できる。 しかし、現在のアプローチは1次オプティマイザのみに依存している。 本稿では,4ビットシャンプーに代表される最初の4ビット2次最適化器を提案し,32ビットのシャンプーと同様の性能を維持した。 4ビットシャンプーにおけるプレコンディショナーの固有ベクトル行列の定量化は,理論上も実験上も,プリコンディショナー自体の定量化よりも著しく優れていることを示す。 量子化された固有ベクトル行列の直交性を補正することにより、プレコンディショナーの固有ベクトル行列の近似を強化し、逆の4番目の根の計算にも役立てる。 さらに、線形二乗量子化は2次オプティマイザ状態の量子化時に動的ツリー量子化をわずかに上回る。 画像分類のための様々なネットワークの評価により、我々の4ビットシャンプーは、よりメモリ効率のよい32ビットと同等のテスト精度を達成していることが示された。 ソースコードは利用可能になる。

Second-order optimizers, maintaining a matrix termed a preconditioner, are superior to first-order optimizers in both theory and practice. The states forming the preconditioner and its inverse root restrict the maximum size of models trained by second-order optimizers. To address this, compressing 32-bit optimizer states to lower bitwidths has shown promise in reducing memory usage. However, current approaches only pertain to first-order optimizers. In this paper, we propose the first 4-bit second-order optimizers, exemplified by 4-bit Shampoo, maintaining performance similar to that of 32-bit ones. We show that quantizing the eigenvector matrix of the preconditioner in 4-bit Shampoo is remarkably better than quantizing the preconditioner itself both theoretically and experimentally. By rectifying the orthogonality of the quantized eigenvector matrix, we enhance the approximation of the preconditioner's eigenvector matrix, which also benefits the computation of its inverse 4-th root. Besides, we find that linear square quantization slightly outperforms dynamic tree quantization when quantizing second-order optimizer states. Evaluation on various networks for image classification demonstrates that our 4-bit Shampoo achieves comparable test accuracy to its 32-bit counterpart while being more memory-efficient. The source code will be made available.
翻訳日:2024-05-29 18:39:07 公開日:2024-05-28
# 量子サブシステム符号、CFTとその$\mathbb{Z}_2$-gaugings

Quantum subsystem codes, CFTs and their $\mathbb{Z}_2$-gaugings ( http://arxiv.org/abs/2405.18145v1 )

ライセンス: Link先を確認
Keiichi Ando, Kohki Kawabata, Tatsuma Nishioka, (参考訳) 我々は、素次元のキューディット系に対して、量子安定化器符号よりもより包括的な量子誤り訂正符号のクラスである量子サブシステム符号から、ナライン共形場理論(CFT)を構築する。 結果の符号 CFT は、大域的な$\mathbb{Z}_2$対称性を示すので、対称性が非非正則であるときに、$\mathbb{Z}_2$-gauging を導出するために$\mathbb{Z}_2$-gauging を実行することができる。 我々は重み付き指向グラフを用いてこれらのサブシステムコードCFTのサブセットを分類し、少ない中心電荷で列挙する。 その結果、$\mathbb{Z}_2$-orbifold, new supersymmetric code CFT, and few fermionic code CFTs with spontaneously broken Supersymmetric。

We construct Narain conformal field theories (CFTs) from quantum subsystem codes, a more comprehensive class of quantum error-correcting codes than quantum stabilizer codes, for qudit systems of prime dimensions. The resulting code CFTs exhibit a global $\mathbb{Z}_2$ symmetry, enabling us to perform the $\mathbb{Z}_2$-gauging to derive their orbifolded and fermionized theories when the symmetry is non-anomalous. We classify a subset of these subsystem code CFTs using weighted oriented graphs and enumerate those with small central charges. Consequently, we identify several bosonic code CFTs self-dual under the $\mathbb{Z}_2$-orbifold, new supersymmetric code CFTs, and a few fermionic code CFTs with spontaneously broken supersymmetry.
翻訳日:2024-05-29 18:39:07 公開日:2024-05-28
# クリックスルーレート予測のための統一低ランク圧縮フレームワーク

Unified Low-rank Compression Framework for Click-through Rate Prediction ( http://arxiv.org/abs/2405.18146v1 )

ライセンス: Link先を確認
Hao Yu, Minghao Fu, Jiandong Ding, Yusheng Zhou, Jianxin Wu, (参考訳) Deep Click-Through Rate (CTR)予測モデルは、現代の産業レコメンデーションシナリオにおいて重要な役割を果たす。 しかし、高いメモリオーバーヘッドと計算コストは、リソース制約のある環境へのデプロイメントを制限する。 低ランク近似はコンピュータビジョンや自然言語処理モデルに有効な手法であるが、CTR予測モデルの圧縮への応用はあまり検討されていない。 メモリと計算資源が限られているため、CTR予測モデルの圧縮はしばしば3つの根本的な課題、すなわち(1)に直面している。 エッジデバイスに適応するためのモデルサイズをどうやって削減するか? (2)。 CTR予測モデル推論の高速化 (3)。 圧縮後のオリジナルのモデルの能力を維持するには? 従来の低ランク圧縮研究は主にテンソル分解を用いており、高いパラメータ圧縮比が得られるが、AUCの劣化と計算オーバーヘッドが増大する。 これらの課題に対処するために,CTR予測モデルを圧縮する低ランク分解フレームワークを提案する。 最も古典的な行列分解SVD法であっても、我々のフレームワークは元のモデルよりも優れた性能を実現することができる。 本フレームワークの有効性をさらに向上するため,モデル重みを圧縮するのではなく,出力特性を局所的に圧縮する。 我々の統合低ランク圧縮フレームワークは、様々なCTR予測モデルにおける埋め込みテーブルやMLP層に適用できる。 2つの学術データセットと1つの実産業ベンチマークによる大規模な実験により、3-5倍のモデルサイズ削減により、圧縮されたモデルは、圧縮されていないオリジナルのモデルよりも高速な推論と高いAUCを達成できることが示された。 私たちのコードはhttps://github.com/yuhao318/Atomic_Feature_Mimickingにあります。

Deep Click-Through Rate (CTR) prediction models play an important role in modern industrial recommendation scenarios. However, high memory overhead and computational costs limit their deployment in resource-constrained environments. Low-rank approximation is an effective method for computer vision and natural language processing models, but its application in compressing CTR prediction models has been less explored. Due to the limited memory and computing resources, compression of CTR prediction models often confronts three fundamental challenges, i.e., (1). How to reduce the model sizes to adapt to edge devices? (2). How to speed up CTR prediction model inference? (3). How to retain the capabilities of original models after compression? Previous low-rank compression research mostly uses tensor decomposition, which can achieve a high parameter compression ratio, but brings in AUC degradation and additional computing overhead. To address these challenges, we propose a unified low-rank decomposition framework for compressing CTR prediction models. We find that even with the most classic matrix decomposition SVD method, our framework can achieve better performance than the original model. To further improve the effectiveness of our framework, we locally compress the output features instead of compressing the model weights. Our unified low-rank compression framework can be applied to embedding tables and MLP layers in various CTR prediction models. Extensive experiments on two academic datasets and one real industrial benchmark demonstrate that, with 3-5x model size reduction, our compressed models can achieve both faster inference and higher AUC than the uncompressed original models. Our code is at https://github.com/yuhao318/Atomic_Feature_Mimicking.
翻訳日:2024-05-29 18:39:07 公開日:2024-05-28
# Detourへの学習: 弱教師付きセマンティックセグメンテーションの短縮化

Learning to Detour: Shortcut Mitigating Augmentation for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2405.18148v1 )

ライセンス: Link先を確認
JuneHyoung Kwon, Eunju Lee, Yunsung Cho, YoungBin Kim, (参考訳) 弱いラベルを用いた弱教師付きセマンティックセグメンテーション(WSSS)は,画素レベルのラベルを取得するためのアノテーションコストを軽減するために活発に研究されている。 しかし、偏りのあるデータセットに基づいて訓練された分類器は、ショートカット機能を利用して、特定の背景とオブジェクト間の急激な相関に基づく予測を行う傾向にあり、一般化性能は低下する。 本稿では,WSSS のためのショートカット緩和 (SMA) を提案する。これは,トレーニングデータに見られないオブジェクトと背景の組み合わせの合成表現を生成し,ショートカット機能の使用を減らす。 我々のアプローチは、オブジェクト関連機能とバックグラウンド機能を切り離します。 次に、不整合表現をシャッフルして組み合わせ、多様なオブジェクトと背景の組み合わせの合成特徴を作成する。 SMA訓練された分類器は、コンテキストに依存せず、予測を行う際にターゲットオブジェクトにもっとフォーカスする。 さらに, 帰属法に基づく計量法を用いて, 拡張処理を施した後のショートカット使用時の分類器の挙動を解析した。 提案手法は,PASCAL VOC 2012およびMS COCO 2014データセット上でのセマンティックセマンティックセグメンテーション結果の改善を実現する。

Weakly supervised semantic segmentation (WSSS) employing weak forms of labels has been actively studied to alleviate the annotation cost of acquiring pixel-level labels. However, classifiers trained on biased datasets tend to exploit shortcut features and make predictions based on spurious correlations between certain backgrounds and objects, leading to a poor generalization performance. In this paper, we propose shortcut mitigating augmentation (SMA) for WSSS, which generates synthetic representations of object-background combinations not seen in the training data to reduce the use of shortcut features. Our approach disentangles the object-relevant and background features. We then shuffle and combine the disentangled representations to create synthetic features of diverse object-background combinations. SMA-trained classifier depends less on contexts and focuses more on the target object when making predictions. In addition, we analyzed the behavior of the classifier on shortcut usage after applying our augmentation using an attribution method-based metric. The proposed method achieved the improved performance of semantic segmentation result on PASCAL VOC 2012 and MS COCO 2014 datasets.
翻訳日:2024-05-29 18:29:23 公開日:2024-05-28
# AI支援戦略を用いたラベル付予算最適化フィールド記録からの音声データセット作成のための実践的側面

Practical aspects for the creation of an audio dataset from field recordings with optimized labeling budget with AI-assisted strategy ( http://arxiv.org/abs/2405.18153v1 )

ライセンス: Link先を確認
Javier Naranjo-Alcazar, Jordi Grau-Haro, Ruben Ribes-Serrano, Pedro Zuccarello, (参考訳) 機械リスニングは、音声信号から関連する情報を抽出する技術開発に焦点を当てている。 これらのプロジェクトの重要な側面は、コンテキスト化されたデータの取得とラベル付けである。 いくつかのオーディオデータセットが利用可能であるにもかかわらず、多くは商用アプリケーションには適さない。 この論文は、クラウドソーシングよりも専門家ラベルを用いたアクティブラーニング(AL)の重要性を強調し、データセット構造に関する詳細な洞察を欠いていることが多い。 ALは、人間のラベルとAIモデルを組み合わせて、人間のレビューのためのサンプルをインテリジェントに選択することで、ラベル付け予算を最適化する反復的なプロセスである。 このアプローチは、利用可能な計算リソースやメモリを超える大規模で絶えず成長するデータセットを扱うという課題に対処する。 本稿では, データベース構造, ラベル付け予算の最適化など, 資源制約のあるシナリオにおける記録ノードの構成を詳述した, マシンリスニングプロジェクトのための包括的なデータ中心フレームワークを提案する。 スペインのバレンシアの産業港に適用されたこのフレームワークは、小さなチームで5ヶ月にわたって6540の10秒のオーディオサンプルをラベル付けし、その有効性とさまざまなリソース可用性状況への適応性を実証した。

Machine Listening focuses on developing technologies to extract relevant information from audio signals. A critical aspect of these projects is the acquisition and labeling of contextualized data, which is inherently complex and requires specific resources and strategies. Despite the availability of some audio datasets, many are unsuitable for commercial applications. The paper emphasizes the importance of Active Learning (AL) using expert labelers over crowdsourcing, which often lacks detailed insights into dataset structures. AL is an iterative process combining human labelers and AI models to optimize the labeling budget by intelligently selecting samples for human review. This approach addresses the challenge of handling large, constantly growing datasets that exceed available computational resources and memory. The paper presents a comprehensive data-centric framework for Machine Listening projects, detailing the configuration of recording nodes, database structure, and labeling budget optimization in resource-constrained scenarios. Applied to an industrial port in Valencia, Spain, the framework successfully labeled 6540 ten-second audio samples over five months with a small team, demonstrating its effectiveness and adaptability to various resource availability situations.
翻訳日:2024-05-29 18:29:23 公開日:2024-05-28
# 境界アドバイザクラスについて

On Bounded Advice Classes ( http://arxiv.org/abs/2405.18155v1 )

ライセンス: Link先を確認
Simon Marshall, Casper Gyurik, Vedran Dunjko, (参考訳) 計算複雑性のアドバイスクラスは、暗号、量子コンピューティング、機械学習で遭遇する現実世界のシナリオをモデル化するために頻繁に用いられており、計算タスクは前処理と展開フェーズに分解され、それぞれが異なる複雑さに関連付けられている。 しかし、これらのシナリオでは、前処理フェーズによって与えられるアドバイスは、従来のアドバイスクラスではそうではないいくつかの(より強力な)有界マシンによって生成されなければならない。 より強力なチューリングマシンは、より強力でないチューリングマシンに対してアドバイスを生成する。 次に、様々なクラスが有用なアドバイスをいつ生成するかという問題に焦点を合わせ、これに答えるために、有界なアドバイスを一意の言語に結びつける。 この接続により、$\mathsf{EXP}$, $\mathsf{NP}$, $\mathsf{BQP}$, $\mathsf{PSPACE}$などによって生成されるアドバイスの効用について、様々な条件付きおよび無条件の結果を記述することができます。 本研究では,有界アドバイスクラス,量子有界アドバイスクラス,ランダム化された有界アドバイスクラスの関係について検討する。 また、これらの概念が、例えば$\mathsf{BPP/samp}$のような最近導入されたクラスとどのように相互作用するかについても調べる。 また,既存のアドバイス関数の複雑さに関する研究の最先端性も改善した。

Advice classes in computational complexity have frequently been used to model real-world scenarios encountered in cryptography, quantum computing and machine learning, where some computational task may be broken down into a preprocessing and deployment phase, each associated with a different complexity. However, in these scenarios, the advice given by the preprocessing phase must still be generated by some (albeit more powerful) bounded machine, which is not the case in conventional advice classes. To better model these cases we develop `bounded advice classes', where a more powerful Turing machine generates advice for another, less powerful, Turing machine. We then focus on the question of when various classes generate useful advice, to answer this we connect bounded advice to unary languages. This connection allows us to state various conditional and unconditional results on the utility of advice generated by $\mathsf{EXP}$, $\mathsf{NP}$, $\mathsf{BQP}$, $\mathsf{PSPACE}$, and more. We study the relations between bounded advice classes, quantum bounded advice classes, and randomised bounded advice. We also examine how each of these concepts interact with recently introduced classes, like $\mathsf{BPP/samp}$. Our results also improve the state of the art in existing research on the complexity of advice functions.
翻訳日:2024-05-29 18:29:23 公開日:2024-05-28
# VividPose:リアルな人間のイメージアニメーションのための安定的なビデオ拡散の促進

VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation ( http://arxiv.org/abs/2405.18156v1 )

ライセンス: Link先を確認
Qilin Wang, Zhengkai Jiang, Chengming Xu, Jiangning Zhang, Yabiao Wang, Xinyi Zhang, Yun Cao, Weijian Cao, Chengjie Wang, Yanwei Fu, (参考訳) 人間の画像アニメーションは、特定のポーズシーケンスに従うことによって、静的画像からビデオを生成する。 現在のアプローチでは一般的に、外観と動きを別々に学習するマルチステージパイプラインを採用しています。 これらの問題に対処するため、我々は、安定した時間安定性を確保するためのSVD(Stable Video Diffusion)に基づく革新的なエンドツーエンドパイプラインであるVividPoseを提案する。 人間のアイデンティティの保持を高めるために,衣服のテクスチャや背景など他の外観の詳細を損なうことなく,追加の顔情報を統合するアイデンティティ認識型外観制御器を提案する。 このアプローチにより、生成されたビデオは、さまざまなポーズにまたがる重要な顔の特徴を保ちながら、人間の被写体のアイデンティティに対して高い忠実性を維持することができる。 多様な人体形状や手の動きに対応するために,SMPL-Xからの濃密なレンダリングマップとスパース骨格地図の両方を利用する幾何学的ポーズコントローラを導入する。 これにより、生成されたビデオのポーズと形状の正確なアライメントが可能になり、幅広い身体形状とダイナミックハンドの動きを扱える堅牢なフレームワークを提供する。 UBCFashion と TikTok ベンチマークの大規模定性的および定量的実験により,本手法が最先端性能を実現することを示す。 さらに、VividPoseは、提案した組込みデータセットよりも優れた一般化能力を示す。 コードとモデルは利用可能だ。

Human image animation involves generating a video from a static image by following a specified pose sequence. Current approaches typically adopt a multi-stage pipeline that separately learns appearance and motion, which often leads to appearance degradation and temporal inconsistencies. To address these issues, we propose VividPose, an innovative end-to-end pipeline based on Stable Video Diffusion (SVD) that ensures superior temporal stability. To enhance the retention of human identity, we propose an identity-aware appearance controller that integrates additional facial information without compromising other appearance details such as clothing texture and background. This approach ensures that the generated videos maintain high fidelity to the identity of human subject, preserving key facial features across various poses. To accommodate diverse human body shapes and hand movements, we introduce a geometry-aware pose controller that utilizes both dense rendering maps from SMPL-X and sparse skeleton maps. This enables accurate alignment of pose and shape in the generated videos, providing a robust framework capable of handling a wide range of body shapes and dynamic hand movements. Extensive qualitative and quantitative experiments on the UBCFashion and TikTok benchmarks demonstrate that our method achieves state-of-the-art performance. Furthermore, VividPose exhibits superior generalization capabilities on our proposed in-the-wild dataset. Codes and models will be available.
翻訳日:2024-05-29 18:29:23 公開日:2024-05-28
# 公正表現学習のための図面ボードへの回帰

Back to the Drawing Board for Fair Representation Learning ( http://arxiv.org/abs/2405.18161v1 )

ライセンス: Link先を確認
Angéline Pouget, Nikola Jovanović, Mark Vero, Robin Staab, Martin Vechev, (参考訳) Fair Representation Learning(FRL)の目標は、データ表現を学習することで、機械学習モデルのバイアスを軽減することにある。 近年の多くの研究におけるFRL法の評価は、トレーニング中の表現の有用性(プロキシタスク)を近似するために用いられた単一のタスクに対して、下流の公平性と正確性の間のトレードオフに焦点を当てている。 これにより、他のすべての情報を破棄しながら、プロキシタスクに関連する機能のみを保持するインセンティブが与えられる。 極端なケースでは、学習した表現が簡単なバイナリ値に崩壊し、転送設定では使用不能になる可能性がある。 本研究では、この手法が、トレーニング時に未知の下流タスク(参照タスク)が多数存在する設定から生じるFRLの元々のモチベーションと根本的に一致していないことを論じる。 そこで本研究では、FRL法の評価プロトコルを、主に転送タスクの性能に焦点をあてて再検討する。 このような評価を行う上で重要な課題は、適切なベンチマークの欠如である。 適切な評価手順が満たすべき4つの基準を定式化することで、この問題に対処する。 そこで本研究では,これらの基準を満たすベンチマークであるTransFairを提案する。 この設定では、最先端のFRL手法を再評価し、プロキシタスクに過度に適合し、特定の転送タスクで過度にパフォーマンスが低下することを確認する。 さらに,FRL法におけるタスクに依存しない学習信号の重要性を強調した。

The goal of Fair Representation Learning (FRL) is to mitigate biases in machine learning models by learning data representations that enable high accuracy on downstream tasks while minimizing discrimination based on sensitive attributes. The evaluation of FRL methods in many recent works primarily focuses on the tradeoff between downstream fairness and accuracy with respect to a single task that was used to approximate the utility of representations during training (proxy task). This incentivizes retaining only features relevant to the proxy task while discarding all other information. In extreme cases, this can cause the learned representations to collapse to a trivial, binary value, rendering them unusable in transfer settings. In this work, we argue that this approach is fundamentally mismatched with the original motivation of FRL, which arises from settings with many downstream tasks unknown at training time (transfer tasks). To remedy this, we propose to refocus the evaluation protocol of FRL methods primarily around the performance on transfer tasks. A key challenge when conducting such an evaluation is the lack of adequate benchmarks. We address this by formulating four criteria that a suitable evaluation procedure should fulfill. Based on these, we propose TransFair, a benchmark that satisfies these criteria, consisting of novel variations of popular FRL datasets with carefully calibrated transfer tasks. In this setting, we reevaluate state-of-the-art FRL methods, observing that they often overfit to the proxy task, which causes them to underperform on certain transfer tasks. We further highlight the importance of task-agnostic learning signals for FRL methods, as they can lead to more transferrable representations.
翻訳日:2024-05-29 18:29:23 公開日:2024-05-28
# 時系列表現モデル

Time Series Representation Models ( http://arxiv.org/abs/2405.18165v1 )

ライセンス: Link先を確認
Robert Leppich, Vanessa Borst, Veronika Lesch, Samuel Kounev, (参考訳) 時系列解析は、そのスパース特性、高次元性、一貫性のないデータ品質のため、依然として大きな課題である。 近年のトランスフォーマー技術の発展により,予測や計算能力が向上しているが,これらの手法は依然として資源が豊富であり,適応性に欠けており,時系列の局所的属性とグローバル的属性を統合する上で困難に直面している。 これらの課題に対処するために,イントロスペクションに基づく時系列解析のための新しいアーキテクチャ概念を提案する。 この概念の中心は時系列表現モデル(TSRM)の自己教師型事前学習であり、予測や計算などの特定のタスクに対して、自動化されたリソース効率の高い方法で、一度学習すれば容易に調整および微調整が可能である。 私たちのアーキテクチャは、フレキシブルで階層的な表現学習プロセスを備えています。 心拍データなど、特定の時系列カテゴリの局所的特徴とグローバル的特徴、セマンティクス、および決定的なパターンをキャプチャして学習することができる。 学習した時系列表現モデルは、手動の介入なしに予測や計算などの特定のタスクに効率的に適応することができる。 さらに,本アーキテクチャの設計は,手元にあるタスクに対する各入力値の重要性を強調することで,説明可能性を支援する。 4つのベンチマークデータセットを用いた実証研究により、最先端のベースライン手法と比較して、我々のアーキテクチャは、必要なトレーニングパラメータを最大92.43%削減しつつ、それぞれ最大90.34%と71.54%の計算精度と予測誤差を改善していることがわかった。 ソースコードはhttps://github.com/RobertLeppich/TSRMで公開されている。

Time series analysis remains a major challenge due to its sparse characteristics, high dimensionality, and inconsistent data quality. Recent advancements in transformer-based techniques have enhanced capabilities in forecasting and imputation; however, these methods are still resource-heavy, lack adaptability, and face difficulties in integrating both local and global attributes of time series. To tackle these challenges, we propose a new architectural concept for time series analysis based on introspection. Central to this concept is the self-supervised pretraining of Time Series Representation Models (TSRMs), which once learned can be easily tailored and fine-tuned for specific tasks, such as forecasting and imputation, in an automated and resource-efficient manner. Our architecture is equipped with a flexible and hierarchical representation learning process, which is robust against missing data and outliers. It can capture and learn both local and global features of the structure, semantics, and crucial patterns of a given time series category, such as heart rate data. Our learned time series representation models can be efficiently adapted to a specific task, such as forecasting or imputation, without manual intervention. Furthermore, our architecture's design supports explainability by highlighting the significance of each input value for the task at hand. Our empirical study using four benchmark datasets shows that, compared to investigated state-of-the-art baseline methods, our architecture improves imputation and forecasting errors by up to 90.34% and 71.54%, respectively, while reducing the required trainable parameters by up to 92.43%. The source code is available at https://github.com/RobertLeppich/TSRM.
翻訳日:2024-05-29 18:29:23 公開日:2024-05-28
# 層別編集による大規模言語モデルのジェイルブレイク攻撃対策

Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing ( http://arxiv.org/abs/2405.18166v1 )

ライセンス: Link先を確認
Wei Zhao, Zhe Li, Yige Li, Ye Zhang, Jun Sun, (参考訳) 大規模言語モデル(LLM)は、広範囲の現実世界のアプリケーションで採用されつつある。 最近の研究では、LLMは人間のフィードバックからの強化学習や監督された微調整を通したとしても、意図的に敵のプロンプトを作るのに弱いことが示されている。 既存の防衛方法は、有害なプロンプトの検出や、有害な応答の可能性の軽減に重点を置いているが、LDMの内部メカニズムに基づくジェイルブレイク攻撃に対するLLMの防御は、ほとんど未解明のままである。 本研究では, LLM が有害なプロンプトに対してどのように反応するかを調査し, 脱獄攻撃に対する LLM の弾力性を高めるための新しい防御法である \textbf{L}ayer-specific \textbf{Ed}iting (LED) を提案する。 LEDを通して、LLMの初期層にはいくつかの重要な \textit{safety layer} が存在することを明らかにした。 次に、これらの安全層(およびいくつかの選択された追加層)を、選択された対象層から復号された安全応答で実現することにより、脱獄攻撃に対するLCMのアライメントを大幅に改善できることを示す。 LLM(例えば、Llama2、Mistral)にわたる広範囲にわたる実験は、LEDの有効性を示している。 私たちのコードは \url{https://github.com/ledllm/ledllm} で利用可能です。

Large language models (LLMs) are increasingly being adopted in a wide range of real-world applications. Despite their impressive performance, recent studies have shown that LLMs are vulnerable to deliberately crafted adversarial prompts even when aligned via Reinforcement Learning from Human Feedback or supervised fine-tuning. While existing defense methods focus on either detecting harmful prompts or reducing the likelihood of harmful responses through various means, defending LLMs against jailbreak attacks based on the inner mechanisms of LLMs remains largely unexplored. In this work, we investigate how LLMs response to harmful prompts and propose a novel defense method termed \textbf{L}ayer-specific \textbf{Ed}iting (LED) to enhance the resilience of LLMs against jailbreak attacks. Through LED, we reveal that several critical \textit{safety layers} exist among the early layers of LLMs. We then show that realigning these safety layers (and some selected additional layers) with the decoded safe response from selected target layers can significantly improve the alignment of LLMs against jailbreak attacks. Extensive experiments across various LLMs (e.g., Llama2, Mistral) show the effectiveness of LED, which effectively defends against jailbreak attacks while maintaining performance on benign prompts. Our code is available at \url{https://github.com/ledllm/ledllm}.
翻訳日:2024-05-29 18:29:23 公開日:2024-05-28
# 眼疾患スクリーニングのための信頼度を考慮したマルチモーダリティ学習

Confidence-aware multi-modality learning for eye disease screening ( http://arxiv.org/abs/2405.18167v1 )

ライセンス: Link先を確認
Ke Zou, Tian Lin, Zongbo Han, Meng Wang, Xuedong Yuan, Haoyu Chen, Changqing Zhang, Xiaojing Shen, Huazhu Fu, (参考訳) マルチモーダル眼科画像分類は眼疾患の診断において重要な役割を担っている。 しかし、最近の改良は主に精度に重点を置いており、様々なモダリティの予測において、信頼性と堅牢性の重要性を無視することが多い。 本研究では,眼疾患スクリーニングのための新しい多モード顕在核融合パイプラインを提案する。 モーダリティごとに信頼度を測り、マルチディストリビューション・フュージョン・パースペクティブを用いてマルチモーダリティ情報をエレガントに統合する。 具体的には、まず、事前訓練されたモデル上での通常の逆ガンマ事前分布を用いて、ユニモーダルのアレタリックおよびエピステマティックな不確かさを学習する。 そして、通常の逆ガンマ分布を学生のt分布として解析する。 さらに, 信頼度を考慮した融合フレームワークにおいて, 生徒のt分布の混合により, 異なるモダリティを効果的に統合し, モデルに重み付き特性を付与し, その堅牢性と信頼性を高めることを提案する。 さらに重要なことは、信頼を意識したマルチモダリティランキング正規化項は、ノイズの多い単一モダリティーと融合モダリティーの信頼性をより合理的にランク付けし、信頼性と精度を向上させる。 特にガウスノイズやモダリティの欠如を伴う難解なシナリオにおいて,我々のモデルは頑健性に優れることを示した。 さらに,本モデルでは,マルチモーダル眼疾患検診における有望な解決策としての可能性を示すとともに,アウト・オブ・ディストリビューションデータに対する強力な一般化能力を示す。

Multi-modal ophthalmic image classification plays a key role in diagnosing eye diseases, as it integrates information from different sources to complement their respective performances. However, recent improvements have mainly focused on accuracy, often neglecting the importance of confidence and robustness in predictions for diverse modalities. In this study, we propose a novel multi-modality evidential fusion pipeline for eye disease screening. It provides a measure of confidence for each modality and elegantly integrates the multi-modality information using a multi-distribution fusion perspective. Specifically, our method first utilizes normal inverse gamma prior distributions over pre-trained models to learn both aleatoric and epistemic uncertainty for uni-modality. Then, the normal inverse gamma distribution is analyzed as the Student's t distribution. Furthermore, within a confidence-aware fusion framework, we propose a mixture of Student's t distributions to effectively integrate different modalities, imparting the model with heavy-tailed properties and enhancing its robustness and reliability. More importantly, the confidence-aware multi-modality ranking regularization term induces the model to more reasonably rank the noisy single-modal and fused-modal confidence, leading to improved reliability and accuracy. Experimental results on both public and internal datasets demonstrate that our model excels in robustness, particularly in challenging scenarios involving Gaussian noise and modality missing conditions. Moreover, our model exhibits strong generalization capabilities to out-of-distribution data, underscoring its potential as a promising solution for multimodal eye disease screening.
翻訳日:2024-05-29 18:29:23 公開日:2024-05-28
# AnyFit: どんなシナリオでもAttireを組み合わせられるコントロール可能なバーチャルトライオン

AnyFit: Controllable Virtual Try-on for Any Combination of Attire Across Any Scenario ( http://arxiv.org/abs/2405.18172v1 )

ライセンス: Link先を確認
Yuhan Li, Hao Zhou, Wenxiang Shang, Ran Lin, Xuanhong Chen, Bingbing Ni, (参考訳) 画像ベースの仮想試行は大きな進歩を遂げてきたが、新しいアプローチは、さまざまなシナリオで高忠実で堅牢な画像を提供するには依然として不足している。 そこで我々はまず,ハイドラブロック(Hydra Block)と呼ばれる,軽量でスケーラブルな操作子を提案する。 これは並列アテンション機構によって実現され、複数の衣服が、条件付きエンコードされた枝からメインネットワークへの特徴注入を容易にする。 第二に、実世界のシナリオにおけるモデルの堅牢性と表現性を著しく向上させるため、複数のモデルの残差を合成し、既存のモデルにおける情報漏洩による不安定性を克服するマスク領域促進戦略を実装することにより、そのポテンシャルを多様な設定にわたって発展させます。 上記のデザインを取り入れたAnyFitは、高解像度のベンチマークと実世界のデータに大きく差をつけ、フォトリアリスティックでリッチなディテールを補うのに優れています。 さらに、AnyFitがどんなイメージから見ても、どんなシナリオでも高忠実なバーチャル試行錯誤における印象的なパフォーマンスは、ファッションコミュニティにおける将来の研究の新たな道を開くものです。

While image-based virtual try-on has made significant strides, emerging approaches still fall short of delivering high-fidelity and robust fitting images across various scenarios, as their models suffer from issues of ill-fitted garment styles and quality degrading during the training process, not to mention the lack of support for various combinations of attire. Therefore, we first propose a lightweight, scalable, operator known as Hydra Block for attire combinations. This is achieved through a parallel attention mechanism that facilitates the feature injection of multiple garments from conditionally encoded branches into the main network. Secondly, to significantly enhance the model's robustness and expressiveness in real-world scenarios, we evolve its potential across diverse settings by synthesizing the residuals of multiple models, as well as implementing a mask region boost strategy to overcome the instability caused by information leakage in existing models. Equipped with the above design, AnyFit surpasses all baselines on high-resolution benchmarks and real-world data by a large gap, excelling in producing well-fitting garments replete with photorealistic and rich details. Furthermore, AnyFit's impressive performance on high-fidelity virtual try-ons in any scenario from any image, paves a new path for future research within the fashion community.
翻訳日:2024-05-29 18:29:23 公開日:2024-05-28
# 連続ファジィにおける衝突報告の蓄積

Crash Report Accumulation During Continuous Fuzzing ( http://arxiv.org/abs/2405.18174v1 )

ライセンス: Link先を確認
Ilya Yegorov, Georgy Savidov, (参考訳) クラッシュレポートの蓄積は、継続的なファジィングにおいて必要なステップである。 ファジィングや動的シンボリック実行のような動的ソフトウェア解析技術は、解析のために多数のクラッシュを発生させる。 しかし、時間とリソースの制約はしばしば、重要でない問題の修正を延期し、将来のリリースで新しいエラーを起こす可能性がある。 したがって、新しいエラーと古いエラーを区別する必要がある。 そこで我々は,CASRツールセットの一部として,クラッシュ蓄積手法を提案し,実装した。 ファジィ結果から得られた事故報告に対する我々のアプローチを評価した。

Crash report accumulation is a necessary step during continuous fuzzing. Dynamic software analysis techniques like fuzzing and dynamic symbolic execution generate a large number of crashes for analysis. However, the time and resource constraints often lead to the postponement of fixing some less critical issues, potentially introducing new errors in future releases. Thus, there is a need to distinguish new errors from old ones. We propose a crash accumulation method and implemented it as part of the CASR toolset. We evaluated our approach on crash reports collected from fuzzing results.
翻訳日:2024-05-29 18:29:23 公開日:2024-05-28
# SEMF: インターバル予測のための期待最大化フレームワーク

SEMF: Supervised Expectation-Maximization Framework for Predicting Intervals ( http://arxiv.org/abs/2405.18176v1 )

ライセンス: Link先を確認
Ilia Azizi, Marc-Olivier Boldi, Valérie Chavez-Demoulin, (参考訳) この研究は、完全なデータまたは欠落したデータセットの予測間隔を生成する汎用的でモデルに依存しないフレームワークであるSupervised expectation-Maximization Framework (SEMF)を紹介する。 SEMFは、従来教師なし学習で用いられてきた期待最大化(EM)アルゴリズムを教師付き文脈に拡張し、不確実性推定のための潜在表現を抽出する。 このフレームワークは、11のグラフデータセットにわたる広範な経験的評価を通じて堅牢性を実証し、場合によっては$\unicode{x2013}$narrower正規化予測間隔を達成し、従来の量子回帰法よりも高いカバレッジを達成している。 さらに、SEMFは勾配ブーストツリーやニューラルネットワークといった既存の機械学習アルゴリズムとシームレスに統合され、現実世界のアプリケーションにその有用性を実証する。 実験の結果は、SEMFが不確実性定量化において最先端技術を開発する可能性を強調した。

This work introduces the Supervised Expectation-Maximization Framework (SEMF), a versatile and model-agnostic framework that generates prediction intervals for datasets with complete or missing data. SEMF extends the Expectation-Maximization (EM) algorithm, traditionally used in unsupervised learning, to a supervised context, enabling it to extract latent representations for uncertainty estimation. The framework demonstrates robustness through extensive empirical evaluation across 11 tabular datasets, achieving$\unicode{x2013}$in some cases$\unicode{x2013}$narrower normalized prediction intervals and higher coverage than traditional quantile regression methods. Furthermore, SEMF integrates seamlessly with existing machine learning algorithms, such as gradient-boosted trees and neural networks, exemplifying its usefulness for real-world applications. The experimental results highlight SEMF's potential to advance state-of-the-art techniques in uncertainty quantification.
翻訳日:2024-05-29 18:29:23 公開日:2024-05-28
# STEAMのAを再考する:AIリテラシー教育の展望

Rethinking the A in STEAM: Insights from and for AI Literacy Education ( http://arxiv.org/abs/2405.18179v1 )

ライセンス: Link先を確認
Pekka Mertala, JAnne Fagerlund, Tomi Slotte Dufva, (参考訳) 本稿では,STEAM教育における芸術の役割を再考し,K-12文脈におけるAIリテラシーの重要性を強調した。 芸術の限界化に反対して、この論文は言語学、哲学、社会学、視覚芸術の4つの重要な領域を中心に構成されている。 各セクションは、重要なAI関連の現象に対処し、STEAM教育に効果的な統合のための教育戦略を提供する。 言語研究は、メディア表現とAI言語モデルの確率的性質に焦点を当てている。 哲学のセクションでは、人間同型、倫理、そしてAIの誤解された人間のような能力について調べている。 社会研究は、AIの社会的影響、偏見、データ・ラック・スティックにおける倫理的考察について議論する。 視覚芸術は、生成的AIが芸術的プロセスとインテレック・トゥルな性質に与える影響を探求する。 記事は、STEAMに芸術をしっかりと取り入れることで、AIの総合的で公平で持続可能な理解を促進し、究極的には公正性と創造性を促進する技術に刺激を与える、と結論付けている。

This article rethinks the role of arts in STEAM education, emphasizing its importance in AI literacy within K-12 contexts. Arguing against the marginalization of arts, the paper is structured around four key domains: language studies, philosophy, social studies, and visual arts. Each section addresses critical AI-related phenomena and provides pedagogical strate-gies for effective integration into STEAM education. Language studies focus on media representations and the probabilistic nature of AI language models. The philosophy section examines anthropomorphism, ethics, and the misconstrued human-like capabilities of AI. Social studies discuss AI's societal impacts, biases, and ethical considerations in data prac-tices. Visual arts explore the implications of generative AI on artistic processes and intellec-tual property. The article concludes by advocating for a robust inclusion of arts in STEAM to foster a holistic, equitable, and sustainable understanding of AI, ultimately inspiring technologies that promote fairness and creativity.
翻訳日:2024-05-29 18:29:23 公開日:2024-05-28
# 適応シールドによるブラックボックス環境における安全強化学習

Safe Reinforcement Learning in Black-Box Environments via Adaptive Shielding ( http://arxiv.org/abs/2405.18180v1 )

ライセンス: Link先を確認
Daniel Bethell, Simos Gerasimou, Radu Calinescu, Calum Imrie, (参考訳) 訓練中の強化学習(RL)エージェントの安全な探索は、実世界の多くのシナリオでRLエージェントをデプロイするための重要な障害である。 未知のブラックボックス環境におけるRLエージェントのトレーニングは、ドメイン/タスクに関する事前の知識が利用できない場合にさらに安全性の高いリスクをもたらす。 本稿では,ADVICE(Adaptive Shielding with a Contrastive Autoencoder)について紹介する。これは,トレーニング中の状態-動作ペアの安全かつ安全でない特徴を識別し,潜在的に有害な結果をもたらすアクションの実行からRLエージェントを保護する。 最先端の安全RL探査技術に対する総合的な実験的評価は、ADVICEが競技結果報酬を維持しながらトレーニング中の安全違反を著しく低減できることを示す。

Empowering safe exploration of reinforcement learning (RL) agents during training is a critical impediment towards deploying RL agents in many real-world scenarios. Training RL agents in unknown, black-box environments poses an even greater safety risk when prior knowledge of the domain/task is unavailable. We introduce ADVICE (Adaptive Shielding with a Contrastive Autoencoder), a novel post-shielding technique that distinguishes safe and unsafe features of state-action pairs during training, thus protecting the RL agent from executing actions that yield potentially hazardous outcomes. Our comprehensive experimental evaluation against state-of-the-art safe RL exploration techniques demonstrates how ADVICE can significantly reduce safety violations during training while maintaining a competitive outcome reward.
翻訳日:2024-05-29 18:29:23 公開日:2024-05-28
# 振動子ベースにおける3体力の増大

Three-body Forces in Oscillator Bases Expansion ( http://arxiv.org/abs/2405.18184v1 )

ライセンス: Link先を確認
Cyrille Chevalier, Selma Youcef Khodja, (参考訳) 発振器の基底展開は、時間に依存しないシュリンガー方程式の効率的な近似法として成り立つ。 この方法はもともと1つの非線形変分パラメータで定式化され、2つのパラメータを組み込むように拡張することができる。 非相対論的キネマティクスと半相対論的キネマティクスの両方を扱う。 本研究は,3つの同一体系のシステムに着目し,与えられた3体力のクラスの管理を包含する手法を一般化した。 この一般化の計算コストは、2体相互作用の計算コストを超えないことが証明されている。 一般化の精度は、ラグランジュメッシュ法と超球面高調波展開の結果を比較して評価する。 また、N$同一粒子系と2つの同一粒子系と1つの異なる粒子系の拡張についても論じている。

The oscillator bases expansion stands as an efficient approximation method for the time-independent Schr\"odinger equation. The method, originally formulated with one non-linear variational parameter, can be extended to incorporate two such parameters. It handles both non- and semi-relativistic kinematics with generic two-body interactions. In the current work, focusing on systems of three identical bodies, the method is generalised to include the management of a given class of three-body forces. The computational cost of this generalisation proves to not exceed the one for two-body interactions. The accuracy of the generalisation is assessed by comparing with results from Lagrange mesh method and hyperspherical harmonic expansions. Extensions for systems of $N$ identical bodies and for systems of two identical particles and one distinct are also discussed.
翻訳日:2024-05-29 18:29:23 公開日:2024-05-28
# AlignIQL: 制約付き最適化による暗黙のQ-Learningにおけるポリシーアライメント

AlignIQL: Policy Alignment in Implicit Q-Learning through Constrained Optimization ( http://arxiv.org/abs/2405.18187v1 )

ライセンス: Link先を確認
Longxiang He, Li Shen, Junbo Tan, Xueqian Wang, (参考訳) Implicit Q-learning(IQL)は、オフラインRLの強力なベースラインとして機能し、量子回帰を通じてデータセットアクションのみを使用して値関数を学習する。 しかし、学習した暗黙のQ-関数から暗黙のポリシーを回復する方法や、なぜIQLが重み付けされた回帰をポリシー抽出に利用できるのかは定かではない。 IDQLは、IQLをアクタークリティカルなメソッドとして解釈し、暗黙のポリシーの重みを取得するが、この重みは最適な値関数のみを保持する。 本研究では,この問題を最適化問題として定式化することで,暗黙的な政策決定問題(IPF)を解決する方法を紹介する。 この最適化問題に基づいて、我々はさらに2つの実用的なアルゴリズムAlignIQLとAlignIQL-hardを提案する。 IQLやIDQLと比較して、当社のメソッドはIQLの単純さを維持し、暗黙のポリシー決定問題を解決する。 D4RLデータセットに対する実験結果から,他のSOTAオフラインRL手法と比較して,本手法は競争力や優れた結果が得られることが示された。 特にAntmazeやAdroitのような複雑なスパース報酬タスクでは、当社のメソッドはIQLやIDQLよりも大幅に優れています。

Implicit Q-learning (IQL) serves as a strong baseline for offline RL, which learns the value function using only dataset actions through quantile regression. However, it is unclear how to recover the implicit policy from the learned implicit Q-function and why IQL can utilize weighted regression for policy extraction. IDQL reinterprets IQL as an actor-critic method and gets weights of implicit policy, however, this weight only holds for the optimal value function. In this work, we introduce a different way to solve the implicit policy-finding problem (IPF) by formulating this problem as an optimization problem. Based on this optimization problem, we further propose two practical algorithms AlignIQL and AlignIQL-hard, which inherit the advantages of decoupling actor from critic in IQL and provide insights into why IQL can use weighted regression for policy extraction. Compared with IQL and IDQL, we find our method keeps the simplicity of IQL and solves the implicit policy-finding problem. Experimental results on D4RL datasets show that our method achieves competitive or superior results compared with other SOTA offline RL methods. Especially in complex sparse reward tasks like Antmaze and Adroit, our method outperforms IQL and IDQL by a significant margin.
翻訳日:2024-05-29 18:29:23 公開日:2024-05-28
# フォック空間から見た多体局在化遷移の動的臨界特性のキャラクタリゼーション

Characterizing dynamical criticality of many-body localization transitions from the Fock-space perspective ( http://arxiv.org/abs/2405.18188v1 )

ライセンス: Link先を確認
Zheng-Hang Sun, Yong-Yi Wang, Jian Cui, Heng Fan, Markus Heyl, (参考訳) 多体局在遷移(MBLT)の性質と潜在的な臨界挙動を特徴付けることは、依然として困難な問題である。 本研究では,Fock空間における放射状確率分布の拡散を,MBLTを持つ系に対して定量化し,有限スケールスケール解析を行う。 スケーリング指数は理論的境界を満たすことが分かり、普遍性クラスを識別できる。 準周期場によって誘導されるMBLTの熱力学限界に対する信頼性の高い外挿は、計算可能なシステムサイズに対しても可能であることを示す。 本研究は, MBLTの研究において, この変位が有用であることを示すものである。

Characterizing the nature of many-body localization transitions (MBLTs) and their potential critical behaviors has remained a challenging problem. In this work, we study the dynamics of the displacement, quantifying the spread of the radial probability distribution in the Fock space, for systems with MBLTs, and perform a finite-size scaling analysis. We find that the scaling exponents satisfy theoretical bounds, and can identify universality classes. We show that reliable extrapolations to the thermodynamic limit for the MBLT induced by quasiperiodic fields is possible even for computationally accessible system sizes. Our work highlights that the displacement is a valuable tool for studying MBLTs, as relevant to ongoing experimental efforts.
翻訳日:2024-05-29 18:19:39 公開日:2024-05-28
# ゲームにおける突然変異バイアス学習

Mutation-Bias Learning in Games ( http://arxiv.org/abs/2405.18190v1 )

ライセンス: Link先を確認
Johann Bauer, Sheldon West, Eduardo Alonso, Mark Broom, (参考訳) 本稿では,進化ゲーム理論に基づくマルチエージェント強化学習アルゴリズムの2つの変種について述べる。 1つの変種を意図的に単純化することで、レプリケータ・ミュータ・ダイナミクス型の常微分方程式系との関係性を証明することができ、ODE の様々な設定におけるアルゴリズムの収束条件に関する証明を提示することができる。 より複雑なバリエーションは、Q-ラーニングベースのアルゴリズムとの比較を可能にする。 我々は,実験的にWoLF-PHCと周波数調整Q-ラーニングを比較した。 解析結果の可用性は、純粋に経験的なケーススタディと比較して結果の伝達可能性の程度を提供し、収束性や信頼性のある一般化の問題を解く際に、マルチエージェント強化学習における力学系の観点からの一般的な有用性を示す。

We present two variants of a multi-agent reinforcement learning algorithm based on evolutionary game theoretic considerations. The intentional simplicity of one variant enables us to prove results on its relationship to a system of ordinary differential equations of replicator-mutator dynamics type, allowing us to present proofs on the algorithm's convergence conditions in various settings via its ODE counterpart. The more complicated variant enables comparisons to Q-learning based algorithms. We compare both variants experimentally to WoLF-PHC and frequency-adjusted Q-learning on a range of settings, illustrating cases of increasing dimensionality where our variants preserve convergence in contrast to more complicated algorithms. The availability of analytic results provides a degree of transferability of results as compared to purely empirical case studies, illustrating the general utility of a dynamical systems perspective on multi-agent reinforcement learning when addressing questions of convergence and reliable generalisation.
翻訳日:2024-05-29 18:19:39 公開日:2024-05-28
# In-Context Symmetries: 文脈世界モデルによる自己教師付き学習

In-Context Symmetries: Self-Supervised Learning through Contextual World Models ( http://arxiv.org/abs/2405.18193v1 )

ライセンス: Link先を確認
Sharut Gupta, Chenyu Wang, Yifei Wang, Tommi Jaakkola, Stefanie Jegelka, (参考訳) ビジョンのための自己教師型学習の中核は、データ変換の集合に関して不変あるいは同変表現を学習するという考え方である。 しかし、このアプローチは強い帰納バイアスを導入し、これらの対称性に従わない下流のタスクで表現が脆弱になる。 本研究では,タスク固有の状態,行動,将来の状態を追跡するメモリモジュールであるコンテキストに注意を払って,異なる変換に不変あるいは同変に適応可能な汎用表現を学習することを提案する。 ここでのアクションは変換であり、現在の状態と将来の状態はそれぞれ変換の前と後の入力の表現を表す。 提案するアルゴリズムであるContextual Self-Supervised Learning (ContextSSL) は、(不変性とは対照的に)すべての変換に等しくなることを学習する。 このようにして、モデルは関連するすべての機能を一般的な表現としてエンコードすることを学ぶことができ、コンテキストとしていくつかの例を与えられたとき、タスクワイズ対称性に合わせるための汎用性を持つ。 実験により, 定性評価と定量的評価の両面から, 既存手法に比べて有意な性能向上を示した。

At the core of self-supervised learning for vision is the idea of learning invariant or equivariant representations with respect to a set of data transformations. This approach, however, introduces strong inductive biases, which can render the representations fragile in downstream tasks that do not conform to these symmetries. In this work, drawing insights from world models, we propose to instead learn a general representation that can adapt to be invariant or equivariant to different transformations by paying attention to context -- a memory module that tracks task-specific states, actions, and future states. Here, the action is the transformation, while the current and future states respectively represent the input's representation before and after the transformation. Our proposed algorithm, Contextual Self-Supervised Learning (ContextSSL), learns equivariance to all transformations (as opposed to invariance). In this way, the model can learn to encode all relevant features as general representations while having the versatility to tail down to task-wise symmetries when given a few examples as the context. Empirically, we demonstrate significant performance gains over existing methods on equivariance-related tasks, supported by both qualitative and quantitative evaluations.
翻訳日:2024-05-29 18:19:39 公開日:2024-05-28
# 差動形変圧器の現況

Delving into Differentially Private Transformer ( http://arxiv.org/abs/2405.18194v1 )

ライセンス: Link先を確認
Youlong Ding, Xueyang Wu, Yining Meng, Yonggang Luo, Hao Wang, Weike Pan, (参考訳) ディファレンシャルプライバシ(DP)による深層学習は、ここ数年で大きな注目を集めており、モデルの精度向上とトレーニング効率の向上を目的とした多くの手法が開発されている。 本稿では,差分プライバシを用いたトランスフォーマーモデルのトレーニング問題について考察する。 我々の処理はモジュラーであり、DPトランスフォーマーをトレーニングする問題を、DPバニラニューラルネットをトレーニングするより基本的な問題に「還元」することである。 後者はよく理解されており、多くのモデルに依存しない方法に順応できる。 このような「還元」は、まずDPトランスフォーマートレーニング特有の硬さ、すなわち注意散逸現象と、効率的な勾配クリッピングのための既存の技術との互換性の欠如を識別する。 これら2つの問題に対処するために,我々はそれぞれ再注意機構とファントムクリッピングを提案する。 我々は,DPトランスフォーマーのトレーニングに新たな光を当てるだけでなく,差分的な私的深層学習の分野での研究を進めるために,モジュラー処理を推進していると信じている。

Deep learning with differential privacy (DP) has garnered significant attention over the past years, leading to the development of numerous methods aimed at enhancing model accuracy and training efficiency. This paper delves into the problem of training Transformer models with differential privacy. Our treatment is modular: the logic is to `reduce' the problem of training DP Transformer to the more basic problem of training DP vanilla neural nets. The latter is better understood and amenable to many model-agnostic methods. Such `reduction' is done by first identifying the hardness unique to DP Transformer training: the attention distraction phenomenon and a lack of compatibility with existing techniques for efficient gradient clipping. To deal with these two issues, we propose the Re-Attention Mechanism and Phantom Clipping, respectively. We believe that our work not only casts new light on training DP Transformers but also promotes a modular treatment to advance research in the field of differentially private deep learning.
翻訳日:2024-05-29 18:19:39 公開日:2024-05-28
# Render and Diffuse:Diffusion-based Behaviour Cloningのための画像と行動空間の調整

Render and Diffuse: Aligning Image and Action Spaces for Diffusion-based Behaviour Cloning ( http://arxiv.org/abs/2405.18196v1 )

ライセンス: Link先を確認
Vitalis Vosylius, Younggyo Seo, Jafar Uruç, Stephen James, (参考訳) ロボット学習の分野において、RGB画像のような高次元の観測と低レベルのロボット行動の複雑なマッピングは、2つの本質的に非常に異なる空間であり、特に限られた量のデータで複雑な学習問題を構成する。 本研究では,ロボットの3次元モデルの仮想レンダリングを用いて,画像空間内の低レベルロボット動作とRGB観察を統一するRender and Diffuse(R&D)を提案する。 この共同観測行動表現を用いて、ロボットの仮想レンダリングを反復的に更新する学習拡散プロセスを用いて、低レベルのロボット動作を計算する。 この空間統一は学習問題を単純化し、サンプル効率と空間一般化に不可欠な帰納バイアスを導入する。 シミュレーションにおけるR&Dのいくつかのバリエーションを徹底的に評価し、実世界の6つの日常的なタスクに適用可能性を示す。 以上の結果から,R&Dは空間一般化能力が高く,より一般的なイメージ・ツー・アクション法よりもサンプリング効率が高いことがわかった。

In the field of Robot Learning, the complex mapping between high-dimensional observations such as RGB images and low-level robotic actions, two inherently very different spaces, constitutes a complex learning problem, especially with limited amounts of data. In this work, we introduce Render and Diffuse (R&D) a method that unifies low-level robot actions and RGB observations within the image space using virtual renders of the 3D model of the robot. Using this joint observation-action representation it computes low-level robot actions using a learnt diffusion process that iteratively updates the virtual renders of the robot. This space unification simplifies the learning problem and introduces inductive biases that are crucial for sample efficiency and spatial generalisation. We thoroughly evaluate several variants of R&D in simulation and showcase their applicability on six everyday tasks in the real world. Our results show that R&D exhibits strong spatial generalisation capabilities and is more sample efficient than more common image-to-action methods.
翻訳日:2024-05-29 18:19:39 公開日:2024-05-28
# モデル指数移動平均を持つアダムは非凸最適化に有効である

Adam with model exponential moving average is effective for nonconvex optimization ( http://arxiv.org/abs/2405.18199v1 )

ライセンス: Link先を確認
Kwangjun Ahn, Ashok Cutkosky, (参考訳) 本研究では,大規模・複雑モデルの学習のための2つの現代的な最適化手法に関する理論的解析を行う。 (i)Adamなどの適応最適化アルゴリズム (II)指数移動平均モデル(EMA) 具体的には、モデルEMAを用いたAdamのクリップバージョンが、滑らかかつ非滑らかな様々な非凸最適化設定における最適収束率を達成することを実証する。 さらに、スケールが異なる座標間で大きく異なる場合、Adamの座標ワイド適応性は確実に有利であることを示す。 特に、Adamの以前の分析とは異なり、我々の分析はコア要素である運動量と割引係数、およびモデルEMAに大きく依存しており、実際は幅広い応用を動機付けている。

In this work, we offer a theoretical analysis of two modern optimization techniques for training large and complex models: (i) adaptive optimization algorithms, such as Adam, and (ii) the model exponential moving average (EMA). Specifically, we demonstrate that a clipped version of Adam with model EMA achieves the optimal convergence rates in various nonconvex optimization settings, both smooth and nonsmooth. Moreover, when the scale varies significantly across different coordinates, we demonstrate that the coordinate-wise adaptivity of Adam is provably advantageous. Notably, unlike previous analyses of Adam, our analysis crucially relies on its core elements -- momentum and discounting factors -- as well as model EMA, motivating their wide applications in practice.
翻訳日:2024-05-29 18:19:39 公開日:2024-05-28
# IM-Context:不均衡回帰タスクのためのインコンテキスト学習

IM-Context: In-Context Learning for Imbalanced Regression Tasks ( http://arxiv.org/abs/2405.18202v1 )

ライセンス: Link先を確認
Ismail Nejjar, Faez Ahmed, Olga Fink, (参考訳) 回帰モデルは、高度に不均衡なラベル分布を特徴とする領域において、効果的に一般化できないことが多い。 深い不均衡回帰の従来の方法は勾配に基づく重み更新に依存しており、未表現領域では過度に適合する傾向にある。 本稿では、従来の非重み付き学習手法の代替として、特に不均衡な回帰に対処する手段として、文脈内学習へのパラダイムシフトを提案する。 インコンテキスト学習(In-context learning)とは、パラメータ更新を必要とせず、新しいクエリ入力とともに、インコンテキストサンプル(インプットラベルペア)からなるプロンプトシーケンスを与えられたモデル自体を条件にすることができることを指す。 本稿では,提案手法がモデル性能に与える影響を理論的・経験的両面から検討する。 高不均衡領域におけるバイアス軽減における局所的文脈の重要性を強調した。 実世界のさまざまなデータセットに対する実証的な評価では、コンテキスト内学習は、高レベルの不均衡を伴うシナリオにおいて、既存の非重み付き学習方法を大幅に上回っていることが示されている。

Regression models often fail to generalize effectively in regions characterized by highly imbalanced label distributions. Previous methods for deep imbalanced regression rely on gradient-based weight updates, which tend to overfit in underrepresented regions. This paper proposes a paradigm shift towards in-context learning as an effective alternative to conventional in-weight learning methods, particularly for addressing imbalanced regression. In-context learning refers to the ability of a model to condition itself, given a prompt sequence composed of in-context samples (input-label pairs) alongside a new query input to generate predictions, without requiring any parameter updates. In this paper, we study the impact of the prompt sequence on the model performance from both theoretical and empirical perspectives. We emphasize the importance of localized context in reducing bias within regions of high imbalance. Empirical evaluations across a variety of real-world datasets demonstrate that in-context learning substantially outperforms existing in-weight learning methods in scenarios with high levels of imbalance.
翻訳日:2024-05-29 18:19:39 公開日:2024-05-28
# IAPT: 大規模言語モデルのためのインストラクション・アウェア・プロンプトチューニング

IAPT: Instruction-Aware Prompt Tuning for Large Language Models ( http://arxiv.org/abs/2405.18203v1 )

ライセンス: Link先を確認
Wei Zhu, Aaron Xuxiang Tian, Congrui Yin, Yuan Ni, Xiaoling Wang, Guotong Xie, (参考訳) ソフトプロンプトチューニングはパラメータ効率の良い微調整法として広く研究されている。 多くのソフトトークンを入力シーケンスに挿入し、下流のパフォーマンスを保証する必要がある。 その結果,大規模言語モデリング(LLM)時代において,ソフトプロンプトチューニングはローランク適応 (LoRA) よりも少ないと考えられる。 本研究では,4つのソフトトークンのみを必要とする新しいプロンプトチューニング手法,IAPT(Instruction-Aware Prompt Tuning)を提案する。 まず,各トランスフォーマー層にパラメータ効率の良いソフトプロンプト生成器を設置し,各入力命令に対して慣用的なソフトプロンプトを生成する。 生成されたソフトプロンプトは入力命令の意味的な要約と見なすことができ、出力生成を効果的に導くことができる。 第2に、ソフトプロンプトジェネレータは、自己アテンションプーリング操作、2つのリニアプロジェクション、およびアクティベーション関数からなるボトルネックアーキテクチャを持つモジュールである。 試験実験では、異なるトランスフォーマー層のプロンプトジェネレータは異なるアクティベーション関数を必要とすることが示された。 そこで本稿では,有理関数の助けを借りて自動生成を行うための慣用的アクティベーション関数の学習を提案する。 各種課題の実験を行った結果,実験結果が得られた。 (a)我々のIAPTメソッドは、同等のチューニング可能なパラメータで最近のベースラインを上回ります。 b) IAPT法はシングルバックのマルチテナント設定ではLoRAよりも効率的である。

Soft prompt tuning is a widely studied parameter-efficient fine-tuning method. However, it has a clear drawback: many soft tokens must be inserted into the input sequences to guarantee downstream performance. As a result, soft prompt tuning is less considered than Low-rank adaptation (LoRA) in the large language modeling (LLM) era. In this work, we propose a novel prompt tuning method, Instruction-Aware Prompt Tuning (IAPT), that requires only four soft tokens. First, we install a parameter-efficient soft prompt generator at each Transformer layer to generate idiosyncratic soft prompts for each input instruction. The generated soft prompts can be seen as a semantic summary of the input instructions and can effectively guide the output generation. Second, the soft prompt generators are modules with a bottleneck architecture consisting of a self-attention pooling operation, two linear projections, and an activation function. Pilot experiments show that prompt generators at different Transformer layers require different activation functions. Thus, we propose to learn the idiosyncratic activation functions for prompt generators automatically with the help of rational functions. We have conducted experiments on various tasks, and the experimental results demonstrate that (a) our IAPT method can outperform the recent baselines with comparable tunable parameters. (b) Our IAPT method is more efficient than LoRA under the single-backbone multi-tenant setting.
翻訳日:2024-05-29 18:19:39 公開日:2024-05-28
# マルチカテド: 未知の共変量へのロバストな条件平均処理効果の推定

Multi-CATE: Multi-Accurate Conditional Average Treatment Effect Estimation Robust to Unknown Covariate Shifts ( http://arxiv.org/abs/2405.18206v1 )

ライセンス: Link先を確認
Christoph Kern, Michael Kim, Angela Zhou, (参考訳) 不均一な治療効果を推定することは、最も有益であろう個人に対して適切な治療を行うために重要である。 しかし、条件付き平均治療効果予測器は、1つの個体群で訓練されることがあるが、おそらく異なる、おそらく未知の個体群に展開される可能性がある。 我々は、マルチ精度予測器の学習方法を用いて、CATE T-learner(差分回帰)を後処理し、デプロイ時に未知の共変量シフトに対して堅牢になる。 この方法は一般にDR-learnerのような擬似アウトカム回帰のために機能する。 提案手法は,観測データセットから構築した予測器を学習し,無作為化比較試験における多精度の監査を行うことにより,より大規模な(より小さな)観測データセットとランダム化データセットを組み合わせることができることを示す。 共変量シフトが増加するシミュレーションでは, 偏差と平均二乗誤差の改善が見られ, 並列大観測実験とランダム化制御実験の半合成ケーススタディで示された。 全体として,マルチディストリビューション学習のために開発された手法と,因果推論と機械学習における魅力あるデシラタ(e.g.外部妥当性)の関連性を確立する。

Estimating heterogeneous treatment effects is important to tailor treatments to those individuals who would most likely benefit. However, conditional average treatment effect predictors may often be trained on one population but possibly deployed on different, possibly unknown populations. We use methodology for learning multi-accurate predictors to post-process CATE T-learners (differenced regressions) to become robust to unknown covariate shifts at the time of deployment. The method works in general for pseudo-outcome regression, such as the DR-learner. We show how this approach can combine (large) confounded observational and (smaller) randomized datasets by learning a confounded predictor from the observational dataset, and auditing for multi-accuracy on the randomized controlled trial. We show improvements in bias and mean squared error in simulations with increasingly larger covariate shift, and on a semi-synthetic case study of a parallel large observational study and smaller randomized controlled experiment. Overall, we establish a connection between methods developed for multi-distribution learning and achieve appealing desiderata (e.g. external validity) in causal inference and machine learning.
翻訳日:2024-05-29 18:19:39 公開日:2024-05-28
# 大規模言語モデルを用いた多目的計画課題のためのヒューマンライクな推論フレームワーク

A Human-Like Reasoning Framework for Multi-Phases Planning Task with Large Language Models ( http://arxiv.org/abs/2405.18208v1 )

ライセンス: Link先を確認
Chengxing Xie, Difan Zou, (参考訳) 最近の研究は、様々な推論戦略による記述やコーディングといった単純なタスクにおいて、その習熟度を強調している。 しかし、LLMエージェントは、現在のモデルに挑戦し、重要な研究課題である包括的な計画を必要とするタスクに依然として苦労している。 本研究では、アウトライン、情報収集、計画といった複数の相互接続段階を含むマルチパス計画問題である旅行計画に焦点を当て、様々な制約や不確実性を管理する必要性に特徴付けられる。 既存の推論アプローチは、この複雑なタスクを効果的に解決するのに苦労しています。 本研究の目的は, LLMエージェントのためのヒューマンライクな計画フレームワークを開発することであり, マルチパス問題を解く際の様々なステップをシミュレートするために, LLMエージェントを指導することである。 具体的には、LLMエージェントが旅行クエリ毎に一貫性のあるアウトラインを生成し、人間の計画パターンを反映するいくつかの戦略を実装している。 さらに、Strategy BlockとKnowledge Blockをフレームワークに統合します。Strategy Blockは情報収集を容易にし、Knowledge Blockは詳細な計画に不可欠な情報を提供します。 本研究では, LLMエージェントの計画能力を大幅に向上し, 効率, 有効性の向上を図りながら, 旅行計画課題に取り組み得ることを実証した。 GPT-4-Turboと組み合わせると、GPT-4-Turboにデプロイされたベースラインフレームワークと比較して10\times$のパフォーマンス向上が得られる。

Recent studies have highlighted their proficiency in some simple tasks like writing and coding through various reasoning strategies. However, LLM agents still struggle with tasks that require comprehensive planning, a process that challenges current models and remains a critical research issue. In this study, we concentrate on travel planning, a Multi-Phases planning problem, that involves multiple interconnected stages, such as outlining, information gathering, and planning, often characterized by the need to manage various constraints and uncertainties. Existing reasoning approaches have struggled to effectively address this complex task. Our research aims to address this challenge by developing a human-like planning framework for LLM agents, i.e., guiding the LLM agent to simulate various steps that humans take when solving Multi-Phases problems. Specifically, we implement several strategies to enable LLM agents to generate a coherent outline for each travel query, mirroring human planning patterns. Additionally, we integrate Strategy Block and Knowledge Block into our framework: Strategy Block facilitates information collection, while Knowledge Block provides essential information for detailed planning. Through our extensive experiments, we demonstrate that our framework significantly improves the planning capabilities of LLM agents, enabling them to tackle the travel planning task with improved efficiency and effectiveness. Our experimental results showcase the exceptional performance of the proposed framework; when combined with GPT-4-Turbo, it attains $10\times$ the performance gains in comparison to the baseline framework deployed on GPT-4-Turbo.
翻訳日:2024-05-29 18:19:39 公開日:2024-05-28
# 自律運転における二レベル最適化による安全マルチエージェント強化学習

Safe Multi-Agent Reinforcement Learning with Bilevel Optimization in Autonomous Driving ( http://arxiv.org/abs/2405.18209v1 )

ライセンス: Link先を確認
Zhi Zheng, Shangding Gu, (参考訳) MARLの安全性の確保、特に自動運転のような現実世界のアプリケーションにデプロイする場合、重要な課題として現れます。 この課題に対処するため、従来の安全MARL手法は安全リスクの最小化を目的として、MARLアプローチを拡張して安全性を考慮した。 しかし、これらの安全なMARLアルゴリズムは、しばしば他のエージェントをモデル化できず、特に動的に複雑な環境では収束保証が欠如している。 本研究では,二段階最適化を用いたスタックルバーグモデルに基づく安全なMARL法を提案し,収束解析を行う。 本理論から導かれた2つの実践的アルゴリズム,すなわち,自動走行アプリケーションにおけるMARL決定を容易にするために設計された,制約付きStackelberg Q-learning (CSQ) と制約付きStackelberg Multi-Agent Deep Deterministic Policy Gradient (CS-MADDPG) を開発した。 アルゴリズムの有効性を評価するため、安全なMARL自動運転ベンチマークを開発し、マージ、ラウンドアバウンド、交差点、競馬場などの挑戦的な自動運転シナリオの実験を行った。 実験の結果,CSQ と CS-MADDPG のアルゴリズムは,Bi-AC,MACPO,MAPPO-L などの強力なMARLベースラインよりも高い性能を示した。 デモとソースコードは、https://github.com/SafeRL-Lab/Safe-MARL-in-Autonomous-Driving.git}で公開されている。

Ensuring safety in MARL, particularly when deploying it in real-world applications such as autonomous driving, emerges as a critical challenge. To address this challenge, traditional safe MARL methods extend MARL approaches to incorporate safety considerations, aiming to minimize safety risk values. However, these safe MARL algorithms often fail to model other agents and lack convergence guarantees, particularly in dynamically complex environments. In this study, we propose a safe MARL method grounded in a Stackelberg model with bi-level optimization, for which convergence analysis is provided. Derived from our theoretical analysis, we develop two practical algorithms, namely Constrained Stackelberg Q-learning (CSQ) and Constrained Stackelberg Multi-Agent Deep Deterministic Policy Gradient (CS-MADDPG), designed to facilitate MARL decision-making in autonomous driving applications. To evaluate the effectiveness of our algorithms, we developed a safe MARL autonomous driving benchmark and conducted experiments on challenging autonomous driving scenarios, such as merges, roundabouts, intersections, and racetracks. The experimental results indicate that our algorithms, CSQ and CS-MADDPG, outperform several strong MARL baselines, such as Bi-AC, MACPO, and MAPPO-L, regarding reward and safety performance. The demos and source code are available at {https://github.com/SafeRL-Lab/Safe-MARL-in-Autonomous-Driving.git}.
翻訳日:2024-05-29 18:19:39 公開日:2024-05-28
# NeRAF:3次元拡散型ニューラルラジアンスと音場

NeRAF: 3D Scene Infused Neural Radiance and Acoustic Fields ( http://arxiv.org/abs/2405.18213v1 )

ライセンス: Link先を確認
Amandine Brunetto, Sascha Hornauer, Fabien Moutarde, (参考訳) 音は人間の知覚において重要な役割を担い、環境を理解するための視覚と共に重要なシーン情報を提供する。 暗黙の表現の進歩にもかかわらず、視覚的なシーンにマッチする音響を学ぶことは依然として困難である。 本研究では,音場と放射場を共同で学習するNeRAFを提案する。 NeRAFはNerfstudioモジュールとして設計されており、リアルなオーディオ映像生成に便利にアクセスできる。 新規な視点と新しい位置での空間音響の両方を合成し、3次元シーン情報で音場を条件付けるために放射場能力を活用する。 推論では、各モダリティは独立に、空間的に分離された位置で表現することができ、より汎用性を提供する。 提案手法の利点をSoundSpacesデータセットに示す。 NeRAFは、データ効率を向上しながら、以前の作業よりも大幅なパフォーマンス向上を実現している。 さらに、NeRAFは、クロスモーダル学習を通じてスパースデータで訓練された複雑なシーンの新規なビュー合成を強化する。

Sound plays a major role in human perception, providing essential scene information alongside vision for understanding our environment. Despite progress in neural implicit representations, learning acoustics that match a visual scene is still challenging. We propose NeRAF, a method that jointly learns acoustic and radiance fields. NeRAF is designed as a Nerfstudio module for convenient access to realistic audio-visual generation. It synthesizes both novel views and spatialized audio at new positions, leveraging radiance field capabilities to condition the acoustic field with 3D scene information. At inference, each modality can be rendered independently and at spatially separated positions, providing greater versatility. We demonstrate the advantages of our method on the SoundSpaces dataset. NeRAF achieves substantial performance improvements over previous works while being more data-efficient. Furthermore, NeRAF enhances novel view synthesis of complex scenes trained with sparse data through cross-modal learning.
翻訳日:2024-05-29 18:19:39 公開日:2024-05-28
# 最新のコードレビューに関する調査 - 進歩,課題,機会

A Survey on Modern Code Review: Progresses, Challenges and Opportunities ( http://arxiv.org/abs/2405.18216v1 )

ライセンス: Link先を確認
Zezhou Yang, Cuiyun Gao, Zhaoqiang Guo, Zhenhao Li, Kui Liu, Xin Xia, Yuming Zhou, (参考訳) 過去10年間で、現代のコードレビュー(MCR)は、ソフトウェア品質の保証の重要な実践と見なされ、ソフトウェアの品質を改善し、ソフトウェア開発チーム内での開発知識を伝達するために適用されました。 その重要性にもかかわらず、MCRは実践者にとって複雑で時間を要する活動であることが多い。 近年,MCRの理解と改善を目的とした研究が数多く行われており,MCR活性をより便利かつ効率的に行うことができるようになっている。 研究者や実践者は,MCR研究の現状を明確に把握するために,過去数年間の体系的な文献レビューを実施している。 調査対象となった231件の文献から,本論文は以下の5つのコントリビューションを行う。 第2に、改善技術と理解研究の両方を包含した、現在のMCRの分類法を提供する。 第3に、新しいMCR方法論とプロトタイプツールの具体的な研究の進捗について述べる。 第4に,MCRの改善に役立つ経験的研究とユーザ研究の主な経験的知見を活用する。 最後に、未解決の課題をまとめ、今後のいくつかの研究機会について概説する。

Over the past decade, modern code review (MCR) has been deemed as a crucial practice of software quality assurance, which is applied to improve software quality and transfer development knowledge within a software team. Despite its importance, MCR is often a complicated and time-consuming activity for practitioners. In recent years, many studies that are dedicated to the comprehension and the improvement of MCR have been explored so that the MCR activity can be carried out more conveniently and efficiently. To provide researchers and practitioners a clear understanding of the current research status on MCR, this paper conducts a systematic literature review of the past years. Given the collected 231 surveyed papers, this paper makes the following five contributions: First, we analyze the research trends of related MCR studies. Second, we provide a taxonomy for the current MCR, encompassing both Improvement Techniques and Understanding Studies. Third, we present the concrete research progress of each novel MCR methodology and prototype tool. Fourth, we exploit the main empirical insights from empirical study and user study that are helpful to improve MCR. Finally, we sum up unsolved challenges and outline several possible research opportunities in the future.
翻訳日:2024-05-29 18:19:39 公開日:2024-05-28
# 概念モデルにおける概念間関係の理解

Understanding Inter-Concept Relationships in Concept-Based Models ( http://arxiv.org/abs/2405.18217v1 )

ライセンス: Link先を確認
Naveen Raman, Mateo Espinosa Zarlenga, Mateja Jamnik, (参考訳) 概念に基づく説明可能性法は、人間の理解可能な概念を用いて説明を構築することによって、ディープラーニングシステムに対する洞察を提供する。 人間の推論に関する文献では,課題解決における概念間の関係を活用できることが示されているが,概念ベース手法が概念間関係の豊富な構造を取り入れているかどうかは不明である。 概念モデルによって学習された概念表現を分析し、これらのモデルが概念間の関係を正しく捉えているかどうかを理解する。 まず、最先端の概念に基づくモデルが、安定性と堅牢性に欠ける表現を生成することを実証的に示し、そのような手法は概念間の関係を捉えるのに失敗する。 そこで我々は,概念間関係を利用して概念間干渉の精度を向上させるアルゴリズムを開発し,概念間関係を正確に捉えることによって,下流タスクがいかに改善されるかを示す。

Concept-based explainability methods provide insight into deep learning systems by constructing explanations using human-understandable concepts. While the literature on human reasoning demonstrates that we exploit relationships between concepts when solving tasks, it is unclear whether concept-based methods incorporate the rich structure of inter-concept relationships. We analyse the concept representations learnt by concept-based models to understand whether these models correctly capture inter-concept relationships. First, we empirically demonstrate that state-of-the-art concept-based models produce representations that lack stability and robustness, and such methods fail to capture inter-concept relationships. Then, we develop a novel algorithm which leverages inter-concept relationships to improve concept intervention accuracy, demonstrating how correctly capturing inter-concept relationships can improve downstream tasks.
翻訳日:2024-05-29 18:19:39 公開日:2024-05-28
# FinerCut: 大規模言語モデルのための有限粒度解釈可能な層プルーニング

FinerCut: Finer-grained Interpretable Layer Pruning for Large Language Models ( http://arxiv.org/abs/2405.18218v1 )

ライセンス: Link先を確認
Yang Zhang, Yawei Li, Xinpeng Wang, Qianli Shen, Barbara Plank, Bernd Bischl, Mina Rezaei, Kenji Kawaguchi, (参考訳) 過度に並列化されたトランスフォーマーネットワークは、LLM(Large Language Models)の最先端アーキテクチャである。 しかし、そのようなモデルには数十億のパラメータが含まれており、環境問題を引き起こしている。 これらの問題に対処するため,我々はFinerCutを提案する。FinerCutは,トランスフォーマーブロックレベルでの以前の作業とは対照的に,ブロック内のすべての自己アテンションとフィードフォワードネットワーク(FFN)層を個別のプルーニング候補として検討する。 FinerCutは、削除がモデルの出力に最小限の変更をもたらすレイヤを抜粋する -- 新しい、リーンで、解釈可能で、タスクに依存しないプルーニングメソッドに寄与する。 9つのベンチマークでテストした結果、25%の層が取り除かれたLlama3-8Bの90%のパフォーマンスを維持し、30%の層が取り除かれたLlama3-70Bの95%のパフォーマンスを維持しています。 Llama3-70Bの自己保持層のうち42%(80点中34点)は、削除後の微調整を伴わず、パフォーマンスの99%を維持しながら取り除くことができる。 さらにFinerCutは、プルーニングされたレイヤのタイプと場所を検査するツールを提供しており、興味深いプルーニングの振る舞いを観察することができる。 例えば、我々は、しばしばより深い連続的なデコーダ層において、自己注意層を刈り取ることを好む。 私たちの洞察が将来の効率的なLLMアーキテクチャ設計を刺激することを期待しています。

Overparametrized transformer networks are the state-of-the-art architecture for Large Language Models (LLMs). However, such models contain billions of parameters making large compute a necessity, while raising environmental concerns. To address these issues, we propose FinerCut, a new form of fine-grained layer pruning, which in contrast to prior work at the transformer block level, considers all self-attention and feed-forward network (FFN) layers within blocks as individual pruning candidates. FinerCut prunes layers whose removal causes minimal alternation to the model's output -- contributing to a new, lean, interpretable, and task-agnostic pruning method. Tested across 9 benchmarks, our approach retains 90% performance of Llama3-8B with 25% layers removed, and 95% performance of Llama3-70B with 30% layers removed, all without fine-tuning or post-pruning reconstruction. Strikingly, we observe intriguing results with FinerCut: 42% (34 out of 80) of the self-attention layers in Llama3-70B can be removed while preserving 99% of its performance -- without additional fine-tuning after removal. Moreover, FinerCut provides a tool to inspect the types and locations of pruned layers, allowing to observe interesting pruning behaviors. For instance, we observe a preference for pruning self-attention layers, often at deeper consecutive decoder layers. We hope our insights inspire future efficient LLM architecture designs.
翻訳日:2024-05-29 18:19:39 公開日:2024-05-28
# 離散密度推定のための非負テンソル混合学習

Non-negative Tensor Mixture Learning for Discrete Density Estimation ( http://arxiv.org/abs/2405.18220v1 )

ライセンス: Link先を確認
Kazu Ghalamkari, Jesper Løve Hinrich, Morten Mørup, (参考訳) 我々は、Kulback-Leibler分散を最適化する非負テンソル分解のための期待最大化(EM)に基づく統一フレームワークを提案する。 各Mステップの繰り返しや学習率のチューニングを避けるため、低階分解と多体近似の一般関係を確立する。 この接続を用いて、多体近似の閉形式解を用いて、Mステップで全てのパラメータを同時に更新することができる。 我々のフレームワークは、CP、タッカー、トレインの分解を含む様々な低ランク構造に対する統一的な方法論を提供するだけでなく、テンソルの混合物を形成するそれらの組み合わせや、ロバスト適応ノイズモデリングを提供する。 実験により,本フレームワークは従来のテンソルベース手法に比べて離散密度推定に優れることを示した。

We present an expectation-maximization (EM) based unified framework for non-negative tensor decomposition that optimizes the Kullback-Leibler divergence. To avoid iterations in each M-step and learning rate tuning, we establish a general relationship between low-rank decomposition and many-body approximation. Using this connection, we exploit that the closed-form solution of the many-body approximation can be used to update all parameters simultaneously in the M-step. Our framework not only offers a unified methodology for a variety of low-rank structures, including CP, Tucker, and Train decompositions, but also their combinations forming mixtures of tensors as well as robust adaptive noise modeling. Empirically, we demonstrate that our framework provides superior generalization for discrete density estimation compared to conventional tensor-based approaches.
翻訳日:2024-05-29 18:09:42 公開日:2024-05-28
# POMDPの繰り返し自然政策のグラディエント

Recurrent Natural Policy Gradient for POMDPs ( http://arxiv.org/abs/2405.18221v1 )

ライセンス: Link先を確認
Semih Cayci, Atilla Eryilmaz, (参考訳) 本稿では,部分的に可観測性のあるマルコフ決定過程に対するリカレントニューラルネットワーク(RNN)に基づく自然政策勾配法について検討し,非マルコフ強化学習における次元の呪いに対処するためにポリシーパラメータ化と政策評価にRNNを用いる。 本稿では,批判者(繰り返し時間差分学習)に対する有限時間および有限幅解析と,ほぼ初期化体制における対応した自然方針勾配法について述べる。 本分析では,要求されるネットワーク幅とサンプルの複雑さに明確な制約を設けた短期記憶問題に対するRNNの効率を実証し,長期依存の場合の課題を指摘する。

In this paper, we study a natural policy gradient method based on recurrent neural networks (RNNs) for partially-observable Markov decision processes, whereby RNNs are used for policy parameterization and policy evaluation to address curse of dimensionality in non-Markovian reinforcement learning. We present finite-time and finite-width analyses for both the critic (recurrent temporal difference learning), and correspondingly-operated recurrent natural policy gradient method in the near-initialization regime. Our analysis demonstrates the efficiency of RNNs for problems with short-term memory with explicit bounds on the required network widths and sample complexity, and points out the challenges in the case of long-term dependencies.
翻訳日:2024-05-29 18:09:42 公開日:2024-05-28
# 学習から最適化へ -最適化アルゴリズムの学習へ-

From Learning to Optimize to Learning Optimization Algorithms ( http://arxiv.org/abs/2405.18222v1 )

ライセンス: Link先を確認
Camille Castera, Peter Ochs, (参考訳) 学習した最適化アルゴリズムの設計において,従来のアルゴリズムが従うが,これまではL2O(Learning to Optimize)に使用されていなかった重要な原則を特定した。 これらの原則に従って、我々は、データ、アーキテクチャ、学習戦略を考慮した一般的な設計パイプラインを提供し、これにより古典最適化とL2Oの相乗効果を実現し、学習最適化アルゴリズムの哲学をもたらす。 その結果、学習したアルゴリズムは、トレーニング分布の問題をはるかに超えている。 我々は,新しい学習強化BFGSアルゴリズムを設計し,テスト時に多くの設定に適応する数値実験を行うことにより,これらの新原理の成功を実証する。

Towards designing learned optimization algorithms that are usable beyond their training setting, we identify key principles that classical algorithms obey, but have up to now, not been used for Learning to Optimize (L2O). Following these principles, we provide a general design pipeline, taking into account data, architecture and learning strategy, and thereby enabling a synergy between classical optimization and L2O, resulting in a philosophy of Learning Optimization Algorithms. As a consequence our learned algorithms perform well far beyond problems from the training distribution. We demonstrate the success of these novel principles by designing a new learning-enhanced BFGS algorithm and provide numerical experiments evidencing its adaptation to many settings at test time.
翻訳日:2024-05-29 18:09:42 公開日:2024-05-28
# SSLChange:ドメイン適応に基づく自己管理型変更検出フレームワーク

SSLChange: A Self-supervised Change Detection Framework Based on Domain Adaptation ( http://arxiv.org/abs/2405.18224v1 )

ライセンス: Link先を確認
Yitao Zhao, Turgay Celik, Nanqing Liu, Feng Gao, Heng-Chao Li, (参考訳) 従来のリモートセンシング変化検出 (RS CD) では, バイテンポラル画像に対する広範囲な手動ラベリングが, 後続の完全教師付きトレーニングのパフォーマンスを維持するために要求される。 しかし、CDタスクのピクセルレベルのラベリングは非常に複雑で時間を要する。 本稿では, 空間的, 構造的, 意味的な情報を, ドメインアダプタと階層的コントラストヘッドを通して正確に捉えることを促進させる, RSCDタスクに適用可能な, 自己監督型コントラスト型フレームワークについて検討する。 提案するSSLChangeフレームワークは,単一時間サンプルの取得によってのみ自己学習を実現し,メインストリームのCDベースラインに柔軟に転送することができる。 自己教師付きコントラスト学習では、ラベリングなしでも、元のデータに基づいて特徴表現事前学習を行うことができる。 その後、一定の量のラベルが得られた後、事前訓練された特徴は、完全に教師された微調整のためにラベルと整列する。 追加のデータやラベルを導入することなく、下流のベースラインのパフォーマンスは大幅に向上する。 2つのデータセットと6つの希釈データセットによる実験結果から,提案したSSLChangeは,データ制限時のCDベースラインの性能と安定性を向上させることが示された。 SSLChangeのコードは \url{https://github.com/MarsZhaoYT/SSLChange} でリリースされる。

In conventional remote sensing change detection (RS CD) procedures, extensive manual labeling for bi-temporal images is first required to maintain the performance of subsequent fully supervised training. However, pixel-level labeling for CD tasks is very complex and time-consuming. In this paper, we explore a novel self-supervised contrastive framework applicable to the RS CD task, which promotes the model to accurately capture spatial, structural, and semantic information through domain adapter and hierarchical contrastive head. The proposed SSLChange framework accomplishes self-learning only by taking a single-temporal sample and can be flexibly transferred to main-stream CD baselines. With self-supervised contrastive learning, feature representation pre-training can be performed directly based on the original data even without labeling. After a certain amount of labels are subsequently obtained, the pre-trained features will be aligned with the labels for fully supervised fine-tuning. Without introducing any additional data or labels, the performance of downstream baselines will experience a significant enhancement. Experimental results on 2 entire datasets and 6 diluted datasets show that our proposed SSLChange improves the performance and stability of CD baseline in data-limited situations. The code of SSLChange will be released at \url{https://github.com/MarsZhaoYT/SSLChange}
翻訳日:2024-05-29 18:09:42 公開日:2024-05-28
# 量子アクティブラーニング

Quantum Active Learning ( http://arxiv.org/abs/2405.18230v1 )

ライセンス: Link先を確認
Yongcheng Ding, Yue Ban, Mikel Sanz, José D. Martín-Guerrero, Xi Chen, (参考訳) 量子機械学習は、量子力学を利用する古典的な機械学習の拡張であり、量子状態に符号化されたデータからの効率的な学習を促進する。 量子ニューラルネットワークのトレーニングは通常、教師付き学習のための実質的なラベル付きトレーニングセットを必要とする。 人間のアノテータは、しばしば専門家であり、追加の実験を通じてサンプルのラベルを提供し、トレーニングコストを増大させる。 このコストを軽減するために、完全にラベル付けされたデータセットよりもモデルパフォーマンスを維持する方法を模索する一方で、実際にラベル付けされたサンプルが少ないため、数ショットの学習を量子領域に拡張する。 量子アクティブラーニングは、量子データの不確実性を推定し、ラベル付けのためのプールから最も情報性の高いサンプルを選択する。 その結果、トレーニングセットはサンプリング戦略によって選択されたラベル付きサンプルからなるため、QMLモデルは最大知識を蓄積することが期待される。 特に、QALフレームワーク内でトレーニングされたQMLモデルは、特定のタイプに制限されないため、モデルアーキテクチャの観点からの、数発の学習に対するパフォーマンスの向上が可能になる。 様々な領域にまたがる物理学の基本概念として対称性を認識することで、モデル設計のための古典的データの埋め込みによって誘導される量子状態に固有の対称性を利用する。 我々は、幾何学的先行データより少ないデータから一般化できる同変QNNを用いる。 本稿では,2つの分類問題に対してQALの性能をベンチマークし,正と負の両方の結果を観察する。 QALはこのモデルを効果的にトレーニングし、プール内のサンプルの7\%未満をバイアスのないサンプリング動作でラベル付けすることで、完全にラベル付けされたデータセットに匹敵するパフォーマンスを達成する。 さらに,様々な数値実験により,ランダムサンプリングベースラインによってQALの負の結果が上回っていることを解明した。 (文字数制限、本文参照)

Quantum machine learning, as an extension of classical machine learning that harnesses quantum mechanics, facilitates effiient learning from data encoded in quantum states. Training a quantum neural network typically demands a substantial labeled training set for supervised learning. Human annotators, often experts, provide labels for samples through additional experiments, adding to the training cost. To mitigate this expense, there is a quest for methods that maintain model performance over fully labeled datasets while requiring fewer labeled samples in practice, thereby extending few-shot learning to the quantum realm. Quantum active learning estimates the uncertainty of quantum data to select the most informative samples from a pool for labeling. Consequently, a QML model is supposed to accumulate maximal knowledge as the training set comprises labeled samples selected via sampling strategies. Notably, the QML models trained within the QAL framework are not restricted to specific types, enabling performance enhancement from the model architecture's perspective towards few-shot learning. Recognizing symmetry as a fundamental concept in physics ubiquitous across various domains, we leverage the symmetry inherent in quantum states induced by the embedding of classical data for model design. We employ an equivariant QNN capable of generalizing from fewer data with geometric priors. We benchmark the performance of QAL on two classification problems, observing both positive and negative results. QAL effectively trains the model, achieving performance comparable to that on fully labeled datasets by labeling less than 7\% of the samples in the pool with unbiased sampling behavior. Furthermore, we elucidate the negative result of QAL being overtaken by random sampling baseline through miscellaneous numerical experiments. (character count limit, see the main text)
翻訳日:2024-05-29 18:09:42 公開日:2024-05-28
# ポジションペーパー: macOSでリアルタイム参照ベースのWebサイトフィッシング検出を実現するReactをグローバルにローカルに考える

Position Paper: Think Globally, React Locally -- Bringing Real-time Reference-based Website Phishing Detection on macOS ( http://arxiv.org/abs/2405.18236v1 )

ライセンス: Link先を確認
Ivan Petrukha, Nataliia Stulova, Sergii Kryvoblotskyi, (参考訳) 背景。 最近のフィッシング攻撃の急増は、従来の反フィッシング・ブラックリストのアプローチの有効性を損なうものとなっている。 デバイス上でのフィッシング防止ソリューションは、ローカルで高速なフィッシング検出を提供するため、人気が高まっている。 エイム。 我々は,Webクローラのスキャンが終了するのを待つのではなく,ユーザが遭遇した直後にフィッシングサイトを識別するオンデバイスソリューションにより,データベースにおけるフィッシングキャンペーンの認識と記録の遅延を回避することを目的としている。 さらに,オペレーティングシステム固有のリソースやフレームワークを利用することで,システムパフォーマンスへの影響を最小限に抑え,ユーザのプライバシ保護のためにローカル処理に依存することを目指す。 方法。 コンピュータビジョンとデバイス上の機械学習モデルを組み合わせてウェブサイトをリアルタイムで分析するフィッシング検出ソリューションを提案する。 本手法は,Webページの視覚的内容を分析し,レイアウト解析,クレデンシャル入力領域の検出,ブランドの偽造基準の組み合わせによるフィッシングの試みを同定する。 結果。 ケーススタディでは、単一のCPUコアの16%、Apple M1の84MB未満のRAMを必要とするWebブラウザや、46.6%(ベースラインと比較可能)のブランドロゴ検出精度、98.1%(ベースラインを3.1%改善可能)のクレデンシャルページ検出精度を維持しながら、デバイス上でバックグラウンド処理を継続的に行うことが可能であることを示しています。 結論。 本研究は, デバイス上でのリアルタイムフィッシング検出システムにより, サイバーセキュリティ保護技術を強化し, フィッシング検出範囲を, メールクライアントやメールウィンドウなど, より類似した領域に拡大する可能性を示すものである。

Background. The recent surge in phishing attacks keeps undermining the effectiveness of the traditional anti-phishing blacklist approaches. On-device anti-phishing solutions are gaining popularity as they offer faster phishing detection locally. Aim. We aim to eliminate the delay in recognizing and recording phishing campaigns in databases via on-device solutions that identify phishing sites immediately when encountered by the user rather than waiting for a web crawler's scan to finish. Additionally, utilizing operating system-specific resources and frameworks, we aim to minimize the impact on system performance and depend on local processing to protect user privacy. Method. We propose a phishing detection solution that uses a combination of computer vision and on-device machine learning models to analyze websites in real time. Our reference-based approach analyzes the visual content of webpages, identifying phishing attempts through layout analysis, credential input areas detection, and brand impersonation criteria combination. Results. Our case study shows it's feasible to perform background processing on-device continuously, for the case of the web browser requiring the resource use of 16% of a single CPU core and less than 84MB of RAM on Apple M1 while maintaining the accuracy of brand logo detection at 46.6% (comparable with baselines), and of Credential Requiring Page detection at 98.1% (improving the baseline by 3.1%), within the test dataset. Conclusions. Our results demonstrate the potential of on-device, real-time phishing detection systems to enhance cybersecurity defensive technologies and extend the scope of phishing detection to more similar regions of interest, e.g., email clients and messenger windows.
翻訳日:2024-05-29 18:09:42 公開日:2024-05-28
# 混合線形回帰におけるEM繰り返しのシロイド軌道の解離

Unveiling the Cycloid Trajectory of EM Iterations in Mixed Linear Regression ( http://arxiv.org/abs/2405.18237v1 )

ライセンス: Link先を確認
Zhankun Luo, Abolfazl Hashemi, (参考訳) 本稿では,2成分混合線形回帰 (2MLR) における反復の軌跡と期待最大化 (EM) アルゴリズムの収束率について検討する。 MLRの基本的な目標は、ラベルのない観測から回帰モデルを学ぶことである。 EMアルゴリズムは線形回帰の混合を解くために広く応用されている。 近年, 2MLR における EM の超線形収束は, 雑音のない, 高い SNR 設定においていくつかの仮定の下で確立され, ランダム初期化による大域収束速度が確認されている。 しかし、収束の指数は理論的には推定されておらず、EM反復の軌跡の幾何学的性質は十分に理解されていない。 本稿では,まずベッセル関数を用いて,すべてのSNR体制下でのEM更新に対して,明示的なクローズドフォーム表現を提供する。 そして、ノイズのない環境では、人口レベルでの反復関係を導出することにより、EM反復の挙動を完全に特徴づけ、特に全ての反復が特定のシクロ化物の上に置かれていることを示す。 この新たな軌道に基づく解析に基づいて、超線形収束の指数の理論的推定を行い、有限サンプルレベルでの統計的誤差をさらに改善する。 我々の分析は、混合線形回帰に対するEMの挙動を研究するための新しいフレームワークを提供する。

We study the trajectory of iterations and the convergence rates of the Expectation-Maximization (EM) algorithm for two-component Mixed Linear Regression (2MLR). The fundamental goal of MLR is to learn the regression models from unlabeled observations. The EM algorithm finds extensive applications in solving the mixture of linear regressions. Recent results have established the super-linear convergence of EM for 2MLR in the noiseless and high SNR settings under some assumptions and its global convergence rate with random initialization has been affirmed. However, the exponent of convergence has not been theoretically estimated and the geometric properties of the trajectory of EM iterations are not well-understood. In this paper, first, using Bessel functions we provide explicit closed-form expressions for the EM updates under all SNR regimes. Then, in the noiseless setting, we completely characterize the behavior of EM iterations by deriving a recurrence relation at the population level and notably show that all the iterations lie on a certain cycloid. Based on this new trajectory-based analysis, we exhibit the theoretical estimate for the exponent of super-linear convergence and further improve the statistical error bound at the finite-sample level. Our analysis provides a new framework for studying the behavior of EM for Mixed Linear Regression.
翻訳日:2024-05-29 18:09:42 公開日:2024-05-28
# MSPE: プロンプト・ビジョン・トランスフォーマーをどんな解像度でも組み込むマルチスケールパッチ

MSPE: Multi-Scale Patch Embedding Prompts Vision Transformers to Any Resolution ( http://arxiv.org/abs/2405.18240v1 )

ライセンス: Link先を確認
Wenzhuo Liu, Fei Zhu, Shijie Ma, Cheng-Lin Liu, (参考訳) ビジョントランスフォーマー(ViT)は近年、コンピュータビジョンのタスクを著しく進歩させたが、実際の重要な問題は見過ごされた。 通常、画像は224x224などの固定解像度にリサイズされ、トレーニングと推論の効率が向上する。 しかし、均一な入力サイズは、画像の解像度が自然に変化する現実世界のシナリオと矛盾する。 モデルの事前設定された解像度を変更することで、パフォーマンスが著しく低下する可能性がある。 本研究では,パッチ埋め込みを最適化することにより,解像度変化に対するモデル適応性を向上させることを提案する。 提案手法はマルチスケールパッチ埋め込み (Multi-Scale Patch Embedding, MPE) と呼ばれ、複数の可変サイズのパッチカーネルを埋め込んだ標準的なパッチを代替し、異なる解像度で最適なパラメータを選択する。 我々の手法は、他の部品への高コストなトレーニングや修正を必要としないため、ほとんどのViTモデルにも容易に適用できる。 画像分類,セグメンテーション,検出タスクの実験は,MSPEの有効性を示し,低解像度入力では優れた性能を示し,既存の手法では高解像度入力では相容れない性能を示した。

Although Vision Transformers (ViTs) have recently advanced computer vision tasks significantly, an important real-world problem was overlooked: adapting to variable input resolutions. Typically, images are resized to a fixed resolution, such as 224x224, for efficiency during training and inference. However, uniform input size conflicts with real-world scenarios where images naturally vary in resolution. Modifying the preset resolution of a model may severely degrade the performance. In this work, we propose to enhance the model adaptability to resolution variation by optimizing the patch embedding. The proposed method, called Multi-Scale Patch Embedding (MSPE), substitutes the standard patch embedding with multiple variable-sized patch kernels and selects the best parameters for different resolutions, eliminating the need to resize the original image. Our method does not require high-cost training or modifications to other parts, making it easy to apply to most ViT models. Experiments in image classification, segmentation, and detection tasks demonstrate the effectiveness of MSPE, yielding superior performance on low-resolution inputs and performing comparably on high-resolution inputs with existing methods.
翻訳日:2024-05-29 18:09:42 公開日:2024-05-28
# ヒトおよび大言語モデルにおける潜在領域表現の能動的利用

Active Use of Latent Constituency Representation in both Humans and Large Language Models ( http://arxiv.org/abs/2405.18241v1 )

ライセンス: Link先を確認
Wei Liu, Ming Xiang, Nai Ding, (参考訳) ChatGPTのような大きな言語モデル(LLM)と同様に、人間の脳内で文章がどのように表現されているかを理解することは、認知科学の大きな課題である。 古典的言語学理論では、脳はそれを階層的に整理された構成要素に解析することで文を表現する。 対照的に、LLMは言語構成を明示的に解析せず、その潜在表現はいまだによく説明されていない。 そこで本研究では,人間とLLMが,文からどの単語を削除すべきかを推測する一発学習タスクにおいて,その振る舞いを分析することによって,同様の階層型言語構成詞の潜時表現を構築することを実証する。 人間とLLMの両方は、非定詞文字列の代わりに構成要素を削除する傾向がある。 対照的に、単語の性質や順序位置にアクセス可能な単純系列処理モデルでは、この性質は示さない。 単語の削除行動に基づいて、人間とLLMの両方の文の潜在候補木表現を再構築することができる。 これらの結果から,ヒト脳とLDMの両方に潜伏木構造領域の表現が出現することが示唆された。

Understanding how sentences are internally represented in the human brain, as well as in large language models (LLMs) such as ChatGPT, is a major challenge for cognitive science. Classic linguistic theories propose that the brain represents a sentence by parsing it into hierarchically organized constituents. In contrast, LLMs do not explicitly parse linguistic constituents and their latent representations remains poorly explained. Here, we demonstrate that humans and LLMs construct similar latent representations of hierarchical linguistic constituents by analyzing their behaviors during a novel one-shot learning task, in which they infer which words should be deleted from a sentence. Both humans and LLMs tend to delete a constituent, instead of a nonconstituent word string. In contrast, a naive sequence processing model that has access to word properties and ordinal positions does not show this property. Based on the word deletion behaviors, we can reconstruct the latent constituency tree representation of a sentence for both humans and LLMs. These results demonstrate that a latent tree-structured constituency representation can emerge in both the human brain and LLMs.
翻訳日:2024-05-29 18:09:42 公開日:2024-05-28
# 無限パラメータ空間に対する実用的アルゴリズム構成法

Utilitarian Algorithm Configuration for Infinite Parameter Spaces ( http://arxiv.org/abs/2405.18246v1 )

ライセンス: Link先を確認
Devon Graham, Kevin Leyton-Brown, (参考訳) ユーティリティアルゴリズムの構成は、与えられたアルゴリズムのパラメータ空間を自動的に検索して、与えられたユーティリティ関数によって測定されたその性能を、与えられた入力セットで最適化する汎用的手法である。 最近導入された実用的構成手順は、基本問題の硬さに順応しながら、返却されたパラメータ化に関する最適性を保証する。 しかし、これらの手法の適用性は、有限で比較的小さなパラメータのみを探索するという事実によって著しく制限されている。 アルゴリズムの構成空間を連続的あるいは非可算なパラメータで効率的に探索することはできない。 本稿では, COUP (Continuous, Optimistic Utilitarian Procrastination) という新たな手法を提案する。 COUPは、パラメータ空間を効率的に探索し、優れた構成を素早く見つけるように設計されている。 さらに、COUPは、有限パラメータ空間に適用した場合に、従来の実用的構成手順の理論的利点を維持するが、証明可能かつ実験的に、はるかに高速である。

Utilitarian algorithm configuration is a general-purpose technique for automatically searching the parameter space of a given algorithm to optimize its performance, as measured by a given utility function, on a given set of inputs. Recently introduced utilitarian configuration procedures offer optimality guarantees about the returned parameterization while provably adapting to the hardness of the underlying problem. However, the applicability of these approaches is severely limited by the fact that they only search a finite, relatively small set of parameters. They cannot effectively search the configuration space of algorithms with continuous or uncountable parameters. In this paper we introduce a new procedure, which we dub COUP (Continuous, Optimistic Utilitarian Procrastination). COUP is designed to search infinite parameter spaces efficiently to find good configurations quickly. Furthermore, COUP maintains the theoretical benefits of previous utilitarian configuration procedures when applied to finite parameter spaces but is significantly faster, both provably and experimentally.
翻訳日:2024-05-29 18:09:42 公開日:2024-05-28
# 極値モンテカルロ木探索

Extreme Value Monte Carlo Tree Search ( http://arxiv.org/abs/2405.18248v1 )

ライセンス: Link先を確認
Masataro Asai, Stephen Wissow, (参考訳) ボードゲームや強化学習(RL)で成功を収めたにもかかわらず、UCT(Monte-Carlo Tree Search)とUCB1 Multi-Armed Bandit(MAB)を組み合わせたMCTS(Monte-Carlo Tree Search)は、最近までドメインに依存しない計画において限られた成功を収めてきた。 以前の研究では、UCB1は$[0,1]$-bounded rewardsのために設計されており、古典的な計画で用いられるヒューリスティック関数のような$\mathbb{R}$で非バウンドの可能性のある距離を推定するには適切でないことが示され、その後、ガウスの報酬分布用に設計されたMABとMCTSを組み合わせることを提案し、性能の改善に成功した。 本稿では,計画課題に対する理想的な帯域幅の理解をさらに深めている。 既存の作業には2つの問題がある: まず、ガウスMABはもはや$h\in [0,1]$として距離を過剰に指定しないが、それらが非負であり、さらに有界である場合もあるが、これらを$h\in [-\infty,\infty]$として定義する。 第二に、Full-Bellmanバックアップ(Schulte & Keller, 2014)は最小/最大サンプルをバックプロパゲートする理論上の正当化はない。 我々は,両問題を同時に解決する理論的枠組みとして \emph{extreme value} の統計を同定し,UCB1-Uniform/Power という2つの帯域を提案し,それらをMCTS に適用した。 私たちは彼らの後悔の限界を正式に証明し、古典的な計画においてそのパフォーマンスを実証的に実証します。

Despite being successful in board games and reinforcement learning (RL), UCT, a Monte-Carlo Tree Search (MCTS) combined with UCB1 Multi-Armed Bandit (MAB), has had limited success in domain-independent planning until recently. Previous work showed that UCB1, designed for $[0,1]$-bounded rewards, is not appropriate for estimating the distance-to-go which are potentially unbounded in $\mathbb{R}$, such as heuristic functions used in classical planning, then proposed combining MCTS with MABs designed for Gaussian reward distributions and successfully improved the performance. In this paper, we further sharpen our understanding of ideal bandits for planning tasks. Existing work has two issues: First, while Gaussian MABs no longer over-specify the distances as $h\in [0,1]$, they under-specify them as $h\in [-\infty,\infty]$ while they are non-negative and can be further bounded in some cases. Second, there is no theoretical justifications for Full-Bellman backup (Schulte & Keller, 2014) that backpropagates minimum/maximum of samples. We identified \emph{extreme value} statistics as a theoretical framework that resolves both issues at once and propose two bandits, UCB1-Uniform/Power, and apply them to MCTS for classical planning. We formally prove their regret bounds and empirically demonstrate their performance in classical planning.
翻訳日:2024-05-29 18:09:42 公開日:2024-05-28
# 逐次スワップを有する量子リピータ鎖の解析について

On the Analysis of Quantum Repeater Chains with Sequential Swaps ( http://arxiv.org/abs/2405.18252v1 )

ライセンス: Link先を確認
Matheus Guedes de Andrade, Emily A. Van Milligen, Leonardo Bacciottini, Aparimit Chandra, Shahrooz Pouryousef, Nitish K. Panigrahy, Gayane Vardoyan, Don Towsley, (参考訳) 逐次エンタングルメントスワップを用いた2方向量子リピータチェーンの性能評価を行った。 本分析では, メモリデコヒーレンス, ゲート不完全, リンクレベルの不完全絡み合いの発生について検討する。 本研究の主な成果は,生成した終端絡み状態の平均エンタングルメント忠実度に対するクローズドフォーム表現である。 本稿では, ワンショット忠実度解析の以前の知見を一般化し, リピータチェーンがエンドツーエンドの要求を継続的に処理するケースについて検討する。 我々は、量子情報理論とキューイング理論の結果を組み合わせることで、連続要求シナリオの解決策を提供する。 最後に, ハードウェアパラメータ, すなわちコヒーレンス時間, ゲート忠実度, および等質量子リピータチェーンの絡み合い係数および秘密鍵レートに与える影響を解析するために得られた式を適用した。

We evaluate the performance of two-way quantum repeater chains with sequential entanglement swapping. Within the analysis we consider memory decoherence, gate imperfections, and imperfect link-level entanglement generation. Our main results include closed-form expressions for the average entanglement fidelity of the generated end-to-end entangled states. We generalize previous findings for the one-shot fidelity analysis and study the case where repeater chains serve end-to-end requests continuously. We provide solutions to the continuous request scenario by combining results from quantum information theory and queuing theory. Finally, we apply the formulas obtained to analyze the impacts of hardware parameters, i.e., coherence times and gate fidelity, and distance on the entanglement fidelity and secret key rate of homogeneous quantum repeater chains.
翻訳日:2024-05-29 18:09:42 公開日:2024-05-28
# ポイントワイド相互情報による真正データセット評価

Truthful Dataset Valuation by Pointwise Mutual Information ( http://arxiv.org/abs/2405.18253v1 )

ライセンス: Link先を確認
Shuran Zheng, Yongchan Kwon, Xuan Qi, James Zou, (参考訳) MLでデータセットを評価する一般的な方法は、このデータセットでモデルをトレーニングし、テストセットでモデルのパフォーマンスを評価することである。 しかし、このアプローチには、(1)データマーケットプレースにおいて望ましくないデータ操作をインセンティブ化する可能性があり、(2)データ提供者がデータセットを変更して評価スコアを最大化すること、(2)潜在的に小さなテストセットに過度に適合するデータセットを選択すること、の2つの問題がある。 観測データを真に報告することで,データ提供者が常に期待するスコアを最大化することができる新しいデータ評価手法を提案する。 データ重複、ランダムなデータの追加、データ削除、あるいは異なるグループからのデータの再重み付けを含むデータ操作は、期待されるスコアを上げることはできない。 本手法は、適切なスコアリングルールのパラダイムに従って、テストデータセットと評価データセットのポイントワイド相互情報(PMI)を測定する。 しかし、2つのデータセットのPMIの計算は困難である。 ベイジアン機械学習コンテキストにおけるトラクタビリティを大幅に向上させる新しいPMI測定手法を提案する。 これは、任意の選択された値でモデルパラメータの後方確率のみに依存するPMIの新たな特徴付けによって達成される。 最後に、シミュレーションによる理論的結果をサポートし、複数のデータプロバイダの上位データセットを特定する上で、データ評価手法の有効性をさらに検証する。 興味深いことに、本手法はトレーニングされたモデルのテスト性能に基づいてデータセットを選択する標準的な手法よりも優れており、真に評価されたスコアが過度に適合する可能性も高いことが示唆されている。

A common way to evaluate a dataset in ML involves training a model on this dataset and assessing the model's performance on a test set. However, this approach has two issues: (1) it may incentivize undesirable data manipulation in data marketplaces, as the self-interested data providers seek to modify the dataset to maximize their evaluation scores; (2) it may select datasets that overfit to potentially small test sets. We propose a new data valuation method that provably guarantees the following: data providers always maximize their expected score by truthfully reporting their observed data. Any manipulation of the data, including but not limited to data duplication, adding random data, data removal, or re-weighting data from different groups, cannot increase their expected score. Our method, following the paradigm of proper scoring rules, measures the pointwise mutual information (PMI) of the test dataset and the evaluated dataset. However, computing the PMI of two datasets is challenging. We introduce a novel PMI measuring method that greatly improves tractability within Bayesian machine learning contexts. This is accomplished through a new characterization of PMI that relies solely on the posterior probabilities of the model parameter at an arbitrarily selected value. Finally, we support our theoretical results with simulations and further test the effectiveness of our data valuation method in identifying the top datasets among multiple data providers. Interestingly, our method outperforms the standard approach of selecting datasets based on the trained model's test performance, suggesting that our truthful valuation score can also be more robust to overfitting.
翻訳日:2024-05-29 18:09:42 公開日:2024-05-28
# 自己エンコーダによるUWBランキングのセキュアなチャネル相互性に基づく攻撃検出

Channel Reciprocity Based Attack Detection for Securing UWB Ranging by Autoencoder ( http://arxiv.org/abs/2405.18255v1 )

ライセンス: Link先を確認
Wenlong Gou, Chuanhang Yu, Juntao Ma, Gang Wu, Vladimir Mordachev, (参考訳) ゴーストピーク攻撃に代表される様々な範囲の脅威は、IEEE 802.15.4z標準の完成と共にウルトラウェイドバンド(UWB)システムのセキュリティ性能に関する懸念を引き起こしている。 本稿では, チャネルの相互性に基づいて, チャネルインパルス応答(CIR)特性とデータ圧縮能力, 特徴抽出能力を比較し, チャネルインパルス応答(CIR)特性を比較する。 本稿では, ゴーストピーク攻撃を例として, シミュレーションと実験による攻撃検出手法の有効性, 可能性, 一般化性を示す。 提案手法は,99%以上の攻撃検出成功率を実現し,低コストで現行システムに実装可能である。

A variety of ranging threats represented by Ghost Peak attack have raised concerns regarding the security performance of Ultra-Wide Band (UWB) systems with the finalization of the IEEE 802.15.4z standard. Based on channel reciprocity, this paper proposes a low complexity attack detection scheme that compares Channel Impulse Response (CIR) features of both ranging sides utilizing an autoencoder with the capability of data compression and feature extraction. Taking Ghost Peak attack as an example, this paper demonstrates the effectiveness, feasibility and generalizability of the proposed attack detection scheme through simulation and experimental validation. The proposed scheme achieves an attack detection success rate of over 99% and can be implemented in current systems at low cost.
翻訳日:2024-05-29 18:09:42 公開日:2024-05-28
# 画像キャプションのためのテキストのみの合成

Text-only Synthesis for Image Captioning ( http://arxiv.org/abs/2405.18258v1 )

ライセンス: Link先を確認
Qing Zhou, Junlin Huang, Qiang Li, Junyu Gao, Qi Wang, (参考訳) 画像キャプションのためのペア画像テキストトレーニングからテキストのみのトレーニングに至るまで、高品質で大規模な高品質なデータアノテーションの要求を緩和しようとする動きは一貫している。 本稿では,テキストのみによる画像キャプション(ToCa)を提案する。これにより,人間の労力を減らし,計算時間を短縮して,この緩和をさらに進めることができる。 具体的には、字幕テキストを構造と語彙の単語に分解し、字幕の基本的な構成要素として機能する。 大きな言語モデルへの入力として、異なる構造と語彙語を組み合わせることにより、様々な語彙のパターンを含む巨大なキャプションを生成する。 この手法は,対象領域にアプローチするだけでなく,新たなキャプションを生成することにより,モデルのゼロショット一般化能力を向上する。 実世界のデータアクセスのレベルが異なることを考慮し、クロスドメイン合成、インドメイン合成、データ効率合成の3つのシナリオを定義した。 これらのシナリオの実験では、ゼロショットクロスドメインキャプションの5CIDEr改善とデータ効率のよいキャプションの最大20CIDErの増加により、ToCaの一般化性、転送性、実行性を示す。

From paired image-text training to text-only training for image captioning, the pursuit of relaxing the requirements for high-cost and large-scale annotation of good quality data remains consistent. In this paper, we propose Text-only Synthesis for Image Captioning (ToCa), which further advances this relaxation with fewer human labor and less computing time. Specifically, we deconstruct caption text into structures and lexical words, which serve as the fundamental components of the caption. By combining different structures and lexical words as inputs to the large language model, massive captions that contain various patterns of lexical words are generated. This method not only approaches the target domain but also surpasses it by generating new captions, thereby enhancing the zero-shot generalization ability of the model. Considering the different levels of data access in the real world, we define three synthesis scenarios: cross-domain synthesis, in-domain synthesis, and data-efficient synthesis. Experiments in these scenarios demonstrate the generalizability, transferability and practicability of ToCa with a nearly 5 CIDEr improvement for zero-shot cross-domain captioning and a maximum increase of over 20 CIDEr for data-efficient captioning.
翻訳日:2024-05-29 18:09:42 公開日:2024-05-28
# CTを用いた拡散シュレーディンガーブリッジによる脳室分画 : 対象領域の真理を伴わない

CT-based brain ventricle segmentation via diffusion Schrödinger Bridge without target domain ground truths ( http://arxiv.org/abs/2405.18267v1 )

ライセンス: Link先を確認
Reihaneh Teimouri, Marta Kersten-Oertel, Yiming Xiao, (参考訳) クリニカルCTスキャンによる高効率かつ正確な脳室分画は、腹腔鏡下手術のような緊急手術には不可欠である。 ソフトティッシュコントラストの低下と, 臨床脳CTの注釈データベースの不足にともなって, 拡散モデルに基づくドメイン適応を生かして, CTセグメンテーションの真理を必要とせず, 新たな不確実性を意識した心室セグメンテーション技術を導入する。 具体的には拡散型Schr\odinger Bridgeとアテンション・リカレントU-Netを併用し,MRIと自動CTセグメンテーションを導出する。 重要なことは、画像翻訳とセグメンテーションタスクのエンドツーエンドで協調的なトレーニングフレームワークを提案し、個別のタスクを個別にトレーニングするよりも、その利点を実証することである。 ドメイン適応のための2つの異なるGANモデル(CycleGAN と CUT)を用いて、類似した設定と比較することにより、拡散モデルの利点をセグメント化と画像翻訳品質の改善に向けて明らかにする。 提案手法はDiceスコア0.78$\pm$0.27で,SynSeg-Netを含む比較手法よりも優れ,自動セグメンテーション結果の品質管理をより容易にするための直感的な不確実性対策を提供する。

Efficient and accurate brain ventricle segmentation from clinical CT scans is critical for emergency surgeries like ventriculostomy. With the challenges in poor soft tissue contrast and a scarcity of well-annotated databases for clinical brain CTs, we introduce a novel uncertainty-aware ventricle segmentation technique without the need of CT segmentation ground truths by leveraging diffusion-model-based domain adaptation. Specifically, our method employs the diffusion Schr\"odinger Bridge and an attention recurrent residual U-Net to capitalize on unpaired CT and MRI scans to derive automatic CT segmentation from those of the MRIs, which are more accessible. Importantly, we propose an end-to-end, joint training framework of image translation and segmentation tasks, and demonstrate its benefit over training individual tasks separately. By comparing the proposed method against similar setups using two different GAN models for domain adaptation (CycleGAN and CUT), we also reveal the advantage of diffusion models towards improved segmentation and image translation quality. With a Dice score of 0.78$\pm$0.27, our proposed method outperformed the compared methods, including SynSeg-Net, while providing intuitive uncertainty measures to further facilitate quality control of the automatic segmentation outcomes.
翻訳日:2024-05-29 17:59:58 公開日:2024-05-28
# ボソニックフラクタルチャーン絶縁体と超流動との連続的遷移

Continuous Transition between Bosonic Fractional Chern Insulator and Superfluid ( http://arxiv.org/abs/2405.18269v1 )

ライセンス: Link先を確認
Hongyu Lu, Han-Qing Wu, Bin-Bin Chen, Zi Yang Meng, (参考訳) ボゾン系におけるチャーン絶縁体(FCI)相の性質とFCIとモット絶縁体(MI)間の相転移について検討した。 しかし、FCIと超流動(SF)の連続的な遷移は、刺激場理論の予測にもかかわらず、直接の検証は行われていない。 FCI-SF遷移の既存の数値結果は間接的または明らかに1次である。 ここでは、ハルダンハニカム格子モデルの帯域幅を単純に調整することで、それぞれ$\nu$ = 1/2 のボソニック FCI から、それぞれ$M$ と $\Gamma$ で凝縮された2つの SF 状態への直接遷移を求める。 FCI-SF($M$)遷移は1次であるが、FCI-SF($Gamma$)遷移は連続である。 有限サイズ臨界解析により、得られた臨界指数 $\beta\approx$0.35(5) と $\nu\approx$0.62(12) はどちらも 3D XY の普遍性クラスとよりエキゾチックなランダウクラスと互換性がある。 我々の研究は、位相秩序相と自発連続対称性破壊相の間の連続FCI-SF遷移の直接的な数値的証拠を示し、さらに超低温原子系における(準)断熱処理を通じて、チャーンバンドの分散を徐々に平坦化することにより、ゼロ場ボゾンFCIをSF状態から実現できることを示唆している。

The properties of fractional Chern insulator (FCI) phase and the phase transitions between FCI and Mott insulators (MI) in bosonic systems are well studied. The continuous transitions between FCI and superfluid (SF), however, despite the inspiring field theoretical predictions, have not been directly verified. The existing numerical results of FCI-SF transition are either indirect or clearly first-order. Here, by simply tuning the bandwidth of Haldane honeycomb lattice model, we find direct transitions from a bosonic FCI at $\nu$ = 1/2 filling of a flat Chern band to two SF states with bosons condensed at momenta $M$ and $\Gamma$, respectively. While the FCI-SF($M$) transition is first-order, the FCI-SF($\Gamma$) transition is found continuous. Through finite size criticality analysis, the obtained critical exponents $\beta\approx$0.35(5) and $\nu\approx$0.62(12) are both compatible with those of the 3D XY universality class and more exotic beyond-Landau ones. Our work thence presents a direct numerical evidence of a continuous FCI-SF transition between topological ordered phase and spontaneous continuous symmetry-breaking phase, and further indicates the zero-field bosonic FCI might be realized from a SF state by gradually flattening the dispersion of Chern band, through the (quasi)adiabatic preparation in ultracold atom systems.
翻訳日:2024-05-29 17:59:58 公開日:2024-05-28
# メタヒューリスティックスと大規模言語モデルが合流する:統合最適化アプローチを目指して

Metaheuristics and Large Language Models Join Forces: Towards an Integrated Optimization Approach ( http://arxiv.org/abs/2405.18272v1 )

ライセンス: Link先を確認
Camilo Chacón Sartori, Christian Blum, Filippo Bistaffa, Guillem Rodríguez Corominas, (参考訳) 数年前にLarge Language Models(LLMs)が台頭して以来、メタヒューリスティックス(MHs)の研究者たちは、アルゴリズム内で有益な方法でそのパワーをどのように活用するかを疑問視してきた。 本稿では,LLMをパターン認識ツールとして活用してMHを改善する手法を提案する。 結果として得られたハイブリッド手法は、ソーシャルネットワークベースの組合せ最適化問題の文脈でテストされ、得られたソリューションの品質に関する機械学習とMHを組み合わせた最先端のアプローチよりも優れている。 プロンプトを慎重に設計することにより, LLMから得られる出力が問題知識として利用できることを示す。 最後に, LLMsの潜在的な欠点と限界を認め, これらの研究をさらに進めるためには, それらを調べることが不可欠であると考えている。

Since the rise of Large Language Models (LLMs) a couple of years ago, researchers in metaheuristics (MHs) have wondered how to use their power in a beneficial way within their algorithms. This paper introduces a novel approach that leverages LLMs as pattern recognition tools to improve MHs. The resulting hybrid method, tested in the context of a social network-based combinatorial optimization problem, outperforms existing state-of-the-art approaches that combine machine learning with MHs regarding the obtained solution quality. By carefully designing prompts, we demonstrate that the output obtained from LLMs can be used as problem knowledge, leading to improved results. Lastly, we acknowledge LLMs' potential drawbacks and limitations and consider it essential to examine them to advance this type of research further.
翻訳日:2024-05-29 17:59:58 公開日:2024-05-28
# 非線形相互作用を持つ円と球の同期

Synchronization on circles and spheres with nonlinear interactions ( http://arxiv.org/abs/2405.18273v1 )

ライセンス: Link先を確認
Christopher Criscitiello, Quentin Rebjock, Andrew D. McRae, Nicolas Boumal, (参考訳) 球面上の$n$の点のダイナミクスを$\mathbb{R}^d$$$$d \geq 2$) とみなす。 $\varphi$ が線型$\varphi(t) = t$ であるとき、ポイントは様々な接続シナリオにおいて共通値(つまり同期)に収束する。 指数$\varphi$が指数$\varphi(t) = e^{\beta t}$であるとき、これらのダイナミクスはゲシュコフスキーら(2024年)に述べられているように、理想化されたトランスフォーマーがデータを処理する限界に対応する。 したがって、指数$\varphi$に対して同期が発生するかどうかを問う。 マルチエージェント制御のコンセンサスという文脈において、Markdahl et al (2018) は、$d \geq 3$ (spheres) の場合、相互作用グラフが連結であり、$\varphi$ が増加して凸であるなら、システムは同期することを示した。 円(d=2$)の状況はどうなっていますか。 まず、$\varphi$ の増加と凸はもはや不十分であることを示す。 次に、円上に同期を持つ新しい条件($\varphi'$のテイラー係数が減少している)を特定する。 このようにして、Geshkovski et al (2024) が提起した開問題に対するいくつかの答えを提供する。

We consider the dynamics of $n$ points on a sphere in $\mathbb{R}^d$ ($d \geq 2$) which attract each other according to a function $\varphi$ of their inner products. When $\varphi$ is linear ($\varphi(t) = t$), the points converge to a common value (i.e., synchronize) in various connectivity scenarios: this is part of classical work on Kuramoto oscillator networks. When $\varphi$ is exponential ($\varphi(t) = e^{\beta t}$), these dynamics correspond to a limit of how idealized transformers process data, as described by Geshkovski et al. (2024). Accordingly, they ask whether synchronization occurs for exponential $\varphi$. In the context of consensus for multi-agent control, Markdahl et al. (2018) show that for $d \geq 3$ (spheres), if the interaction graph is connected and $\varphi$ is increasing and convex, then the system synchronizes. What is the situation on circles ($d=2$)? First, we show that $\varphi$ being increasing and convex is no longer sufficient. Then we identify a new condition (that the Taylor coefficients of $\varphi'$ are decreasing) under which we do have synchronization on the circle. In so doing, we provide some answers to the open problems posed by Geshkovski et al. (2024).
翻訳日:2024-05-29 17:59:58 公開日:2024-05-28
# 非線形スパイクランダム行列モデルの信号パス雑音分解

Signal-Plus-Noise Decomposition of Nonlinear Spiked Random Matrix Models ( http://arxiv.org/abs/2405.18274v1 )

ライセンス: Link先を確認
Behrad Moniri, Hamed Hassani, (参考訳) 本稿では,非線形関数を次数1の雑音行列に応用した非線形スパイクランダム行列モデルについて検討する。 我々は,このモデルに対して信号+雑音分解を行い,信号成分の構造の正確な位相遷移を信号強度の臨界しきい値で同定する。 この分解法の適用性を実証するために,非線形モデルにおける符号信号の回復問題と,確率的ブロックモデルによるコミュニティ検出における新しい現象について検討する。 最後に,一連の数値シミュレーションにより実験結果を検証した。

In this paper, we study a nonlinear spiked random matrix model where a nonlinear function is applied element-wise to a noise matrix perturbed by a rank-one signal. We establish a signal-plus-noise decomposition for this model and identify precise phase transitions in the structure of the signal components at critical thresholds of signal strength. To demonstrate the applicability of this decomposition, we then utilize it to study new phenomena in the problems of signed signal recovery in nonlinear models and community detection in transformed stochastic block models. Finally, we validate our results through a series of numerical simulations.
翻訳日:2024-05-29 17:59:58 公開日:2024-05-28
# 境界量子ストレージモデルにおける証明のラウンド複雑度

The Round Complexity of Proofs in the Bounded Quantum Storage Model ( http://arxiv.org/abs/2405.18275v1 )

ライセンス: Link先を確認
Alex B. Grilo, Philippe Lamontagne, (参考訳) インタラクティブな証明システムの丸い複雑さは、複雑性理論と暗号における実用的および理論的関連性の鍵となる問題である。 さらに、QIP = QIP(3) (STOC'00) のような結果は、量子資源がそのようなタスクに大いに役立つことを示している。 本研究では,有界量子ストレージモデル(BQSM)におけるプロトコルのラウンド圧縮の研究を開始する。 このモデルでは、悪意のあるパーティは有界量子メモリを持ち、プロトコルに送信される全てのキュービットを格納できない。 1)BQSMにおけるNP(およびQMA)の任意の言語に対する非対話的(統計的)証人(in-interactive (statistical) witness)の識別不可能な証明がある。 このプロトコルでは、検証者のメモリだけがバウンドであることに気付きます。 2. 古典的証明系はBQSMの2次元量子証明系で圧縮できる。 さらに、元の証明系がゼロ知識であるなら、量子プロトコルもゼロ知識である。 この結果、証明者がメモリ境界を持つと仮定する。 最後に、結果の"高潔さ"を示す証拠を与えます。 まず,BQS相手に対する平易なモデルにおけるNIZKは,標準手法では不可能であることを示す。 第二に、BQSモデルがなければ、計算仮定の下でも、2-message 0-knowledgeの量子対話的証明が存在しないことが証明される。

The round complexity of interactive proof systems is a key question of practical and theoretical relevance in complexity theory and cryptography. Moreover, results such as QIP = QIP(3) (STOC'00) show that quantum resources significantly help in such a task. In this work, we initiate the study of round compression of protocols in the bounded quantum storage model (BQSM). In this model, the malicious parties have a bounded quantum memory and they cannot store the all the qubits that are transmitted in the protocol. Our main results in this setting are the following: 1. There is a non-interactive (statistical) witness indistinguishable proof for any language in NP (and even QMA) in BQSM in the plain model. We notice that in this protocol, only the memory of the verifier is bounded. 2. Any classical proof system can be compressed in a two-message quantum proof system in BQSM. Moreover, if the original proof system is zero-knowledge, the quantum protocol is zero-knowledge too. In this result, we assume that the prover has bounded memory. Finally, we give evidence towards the "tightness" of our results. First, we show that NIZK in the plain model against BQS adversaries is unlikely with standard techniques. Second, we prove that without the BQS model there is no 2-message zero-knowledge quantum interactive proof, even under computational assumptions.
翻訳日:2024-05-29 17:59:58 公開日:2024-05-28
# 絡み合った量子プローブの放射過程における重力波メモリのシグナチャ

Signatures of gravitational wave memory in the radiative process of entangled quantum probes ( http://arxiv.org/abs/2405.18277v1 )

ライセンス: Link先を確認
Subhajit Barman, Indranil Chakraborty, Sajal Mukherjee, (参考訳) 本稿では,重力波バーストを背景とした測地軌道における絡み合った量子プローブについて検討する。 特に、これらの量子プローブは最初、対称または反対称のベル状態で作成され、GWバーストが通過するにつれて放射過程を研究する。 我々の検討したGWバースト背景は--heaviside-theta, $tanh$, Gaussian, $sech$-squared関数のプロファイルを持つ。 最初の2つのバーストプロファイルは非対称の性質を持ち、結果として非ゼロ重力波メモリとなる。 しかしながら、最後の2つの対称プロファイルには漸近記憶がない。 永遠スイッチングでは, 対称GWバーストによるエンタングルドプローブの集団遷移速度が, 平面空間で得られるものと同じであることが示唆された。 一方、メモリを持つ非対称バーストに対しては、有限な変化があり、上記の2つのシナリオを区別する直接的な可能性を示している。 また、ガウス関数の点における有限スイッチングを考慮し、GW背景とメモリなしの放射過程における特性差を観察する。 特に、ガウススイッチングがGWの通過よりもはるかに遅い場合、メモリプロファイルだけが放射過程に寄与する。 さらに,本研究の身体的意義について考察する。

In this article, we examine entangled quantum probes in geodesic trajectories in a background with gravitational wave (GW) burst. In particular, these quantum probes are prepared initially either in the symmetric or anti-symmetric Bell's states and we study the radiative process as the GW burst passes. Our considered GW burst backgrounds have the profiles of -- Heaviside-theta, $tanh$, Gaussian, and $sech$-squared functions respectively. The first two burst profiles have an asymmetric nature and thus result in non-zero gravitational wave memory. Whereas, for the last two symmetric profiles there is no asymptotic memory. For eternal switching, our observations suggest that the collective transition rate for the entangled probes due to symmetric GW bursts remains the same as obtained in the flat space. Whereas, for asymmetric bursts with memory, there is a finite change, indicating a direct possibility to distinguish between the two above-mentioned scenarios. We also consider finite switching in terms of Gaussian functions and observe characteristic differences in the radiative process between the GW backgrounds with and without memory. Notably, if the Gaussian switching is peaked much later compared to the passing of GW, only memory profiles contribute to the radiative process. We further discuss the physical implications of our findings.
翻訳日:2024-05-29 17:59:58 公開日:2024-05-28
# NotPlaNET: 機械学習でPlanet Hunters TESSから偽陽性を取り除く

NotPlaNET: Removing False Positives from Planet Hunters TESS with Machine Learning ( http://arxiv.org/abs/2405.18278v1 )

ライセンス: Link先を確認
Valentina Tardugno Poleo, Nora Eisner, David W. Hogg, (参考訳) 光度時系列データにおける実際のトランジット事象と偽陽性信号の区別は、トランジット系外惑星、特に長周期惑星の同定においてボトルネックとなる。 この分化は通常、惑星のトランジット信号を模倣する機器的および天体物理学的な偽陽性を除外するために、多数のトランジットのような信号を視覚的に検査する必要がある。 我々は1次元畳み込みニューラルネットワーク(CNN)を構築し、楕円型バイナリやその他の偽陽性を潜在的な惑星候補から切り離し、人間の拒否を必要とする光曲線の数を減らす。 我々のCNNは、プラネット・ハンターズ(Planet Hunters)の市民科学者が発見したTESS光曲線を使って訓練されています。 背景フラックスやセントロイド情報も含んでいます。 光曲線は、プロジェクト科学者によって視覚的に検査され、ラベル付けされる。 汚染物質の平均的な割合は18%であり、最大で37%、最低で10%である。 我々のモデルは18分野のうち16分野の惑星の100%を保持し、一方は1つの惑星候補(0.3%)、残りのセクターは2つの惑星候補(0.6%)を誤ってフラグ付けする。 提案手法は,惑星候補の誤分類を最小限に抑えながら,手動による検定を必要とする光度曲線を最大3分の1まで減少させる可能性を示唆している。

Differentiating between real transit events and false positive signals in photometric time series data is a bottleneck in the identification of transiting exoplanets, particularly long-period planets. This differentiation typically requires visual inspection of a large number of transit-like signals to rule out instrumental and astrophysical false positives that mimic planetary transit signals. We build a one-dimensional convolutional neural network (CNN) to separate eclipsing binaries and other false positives from potential planet candidates, reducing the number of light curves that require human vetting. Our CNN is trained using the TESS light curves that were identified by Planet Hunters citizen scientists as likely containing a transit. We also include the background flux and centroid information. The light curves are visually inspected and labeled by project scientists and are minimally pre-processed, with only normalization and data augmentation taking place before training. The median percentage of contaminants flagged across the test sectors is 18% with a maximum of 37% and a minimum of 10%. Our model keeps 100% of the planets for 16 of the 18 test sectors, while incorrectly flagging one planet candidate (0.3%) for one sector and two (0.6%) for the remaining sector. Our method shows potential to reduce the number of light curves requiring manual vetting by up to a third with minimal misclassification of planet candidates.
翻訳日:2024-05-29 17:59:58 公開日:2024-05-28
# MODL: マルチラーナーオンラインディープラーニング

MODL: Multilearner Online Deep Learning ( http://arxiv.org/abs/2405.18281v1 )

ライセンス: Link先を確認
Antonios Valkanas, Boris N. Oreshkin, Mark Coates, (参考訳) オンラインのディープラーニングは、データの流れから学ぶことの問題を解決する。 既存の作業は、オンライン学習方程式の"高速"部分よりも、"ディープ"を扱うのに適した、純粋なディープラーニングソリューションの探索にのみ焦点を合わせています。 本研究では,ハイブリッドマルチラーナーアプローチに基づく,異なるパラダイムを提案する。 まず、高速なオンラインロジスティック回帰学習システムを開発する。 この学習者はバックプロパゲーションに頼らない。 代わりに、モデルパラメータのクローズドフォーム再帰的な更新を使用して、オンライン学習問題の高速学習部分を処理する。 次に、既存のオンラインディープラーニング理論を分析し、現在複雑なO(L^2)$で運用されているODLアプローチが$O(L)$複雑性で同等に実装可能であることを示す。 このことは、複数の浅層学習者と深層学習者が協調して、協調的・シナジスティックな方法でオンライン学習問題を解く、カスケード型マルチラーナー設計へと繋がる。 このアプローチは、一般的なオンライン学習データセットにおける最先端の結果を達成すると同時に、欠落した機能を優雅に扱えることを示す。 私たちのコードはhttps://github.com/AntonValk/MODLで公開されています。

Online deep learning solves the problem of learning from streams of data, reconciling two opposing objectives: learn fast and learn deep. Existing work focuses almost exclusively on exploring pure deep learning solutions, which are much better suited to handle the "deep" than the "fast" part of the online learning equation. In our work, we propose a different paradigm, based on a hybrid multilearner approach. First, we develop a fast online logistic regression learner. This learner does not rely on backpropagation. Instead, it uses closed form recursive updates of model parameters, handling the fast learning part of the online learning problem. We then analyze the existing online deep learning theory and show that the widespread ODL approach, currently operating at complexity $O(L^2)$ in terms of the number of layers $L$, can be equivalently implemented in $O(L)$ complexity. This further leads us to the cascaded multilearner design, in which multiple shallow and deep learners are co-trained to solve the online learning problem in a cooperative, synergistic fashion. We show that this approach achieves state-of-the-art results on common online learning datasets, while also being able to handle missing features gracefully. Our code is publicly available at https://github.com/AntonValk/MODL.
翻訳日:2024-05-29 17:59:58 公開日:2024-05-28
# 蒸散データを用いた高次元GLMにおける適応脱バイアスSGD

Adaptive debiased SGD in high-dimensional GLMs with steaming data ( http://arxiv.org/abs/2405.18284v1 )

ライセンス: Link先を確認
Ruijian Han, Lan Luo, Yuanhang Luo, Yuanyuan Lin, Jian Huang, (参考訳) オンライン統計推論は、シーケンシャルに収集されたデータのリアルタイム分析を容易にするため、静的データセットに依存する従来の方法とは異なる。 本稿では,高次元一般化線形モデルにおけるオンライン推論の新しい手法を提案する。 完全データセットアクセスや大次元要約統計ストレージを必要とする既存の手法とは対照的に,本手法は単一パスモードで動作し,時間と空間の複雑さを著しく低減する。 我々の方法論的革新の中核は、動的目的関数に適した適応確率勾配降下アルゴリズムと、新しいオンラインデバイアス処理である。 これにより、動的に変化する損失関数によって生じる最適化誤差を効果的に制御しながら、低次元の要約統計を維持できる。 提案手法は,ADL (Approximated Debiased Lasso) と呼ばれ,有界な個人確率条件の必要性を緩和するだけでなく,数値性能も著しく向上することを示した。 数値実験により,ADL法は様々な共分散行列構造に対して連続的に頑健な性能を示すことを示した。

Online statistical inference facilitates real-time analysis of sequentially collected data, making it different from traditional methods that rely on static datasets. This paper introduces a novel approach to online inference in high-dimensional generalized linear models, where we update regression coefficient estimates and their standard errors upon each new data arrival. In contrast to existing methods that either require full dataset access or large-dimensional summary statistics storage, our method operates in a single-pass mode, significantly reducing both time and space complexity. The core of our methodological innovation lies in an adaptive stochastic gradient descent algorithm tailored for dynamic objective functions, coupled with a novel online debiasing procedure. This allows us to maintain low-dimensional summary statistics while effectively controlling optimization errors introduced by the dynamically changing loss functions. We demonstrate that our method, termed the Approximated Debiased Lasso (ADL), not only mitigates the need for the bounded individual probability condition but also significantly improves numerical performance. Numerical experiments demonstrate that the proposed ADL method consistently exhibits robust performance across various covariance matrix structures.
翻訳日:2024-05-29 17:59:58 公開日:2024-05-28
# 段階的に分布回帰を増強する

Stagewise Boosting Distributional Regression ( http://arxiv.org/abs/2405.18288v1 )

ライセンス: Link先を確認
Mattias Wetscher, Johannes Seiler, Reto Stauffer, Nikolaus Umlauf, (参考訳) 前向き回帰は、正規化モデルの推定に使用できる単純なアルゴリズムである。 更新規則は各繰り返しにおける回帰係数に小さな定数を加え、基礎となる最適化問題を小さな改善でゆっくりと解く。 これは勾配ブースティングと似ており、ステップサイズが勾配の積と後者のアルゴリズムのステップ長パラメータによって決定されるという本質的な違いがある。 分布回帰の勾配の増大においてしばしば見落とされがちな課題は、アルゴリズムの進行を事実上停止する小さな勾配の問題である。 この場合、勾配が増大すると、特に複雑な問題では、勾配が消えるため、特定の分布パラメータは更新されない。 そこで本研究では,段階的回帰のアイデアと段階的回帰のアイデアを組み合わせた,段階的回帰型分布回帰アルゴリズムを提案する。 さらに,新たな正則化法である相関フィルタリングを用いて拡張し,多数の共変量を含む問題にさらなる安定性を与える。 さらに、アルゴリズムはパラメータの最適サブセット選択を含み、更新ステップの確率近似を利用してビッグデータ問題に適用することができる。 大規模なデータセットを処理することの利点に加えて、近似の確率的性質は、特に複雑な分布において、局所的な最適値に閉じ込められるリスクを減らすことにより、より良い結果をもたらす可能性がある。 提案手法の有効性をシミュレーションし,910万以上の観測データと672の共変量を用いて,雷数に対する完全な確率モデルの推定を行った。

Forward stagewise regression is a simple algorithm that can be used to estimate regularized models. The updating rule adds a small constant to a regression coefficient in each iteration, such that the underlying optimization problem is solved slowly with small improvements. This is similar to gradient boosting, with the essential difference that the step size is determined by the product of the gradient and a step length parameter in the latter algorithm. One often overlooked challenge in gradient boosting for distributional regression is the issue of a vanishing small gradient, which practically halts the algorithm's progress. We show that gradient boosting in this case oftentimes results in suboptimal models, especially for complex problems certain distributional parameters are never updated due to the vanishing gradient. Therefore, we propose a stagewise boosting-type algorithm for distributional regression, combining stagewise regression ideas with gradient boosting. Additionally, we extend it with a novel regularization method, correlation filtering, to provide additional stability when the problem involves a large number of covariates. Furthermore, the algorithm includes best-subset selection for parameters and can be applied to big data problems by leveraging stochastic approximations of the updating steps. Besides the advantage of processing large datasets, the stochastic nature of the approximations can lead to better results, especially for complex distributions, by reducing the risk of being trapped in a local optimum. The performance of our proposed stagewise boosting distributional regression approach is investigated in an extensive simulation study and by estimating a full probabilistic model for lightning counts with data of more than 9.1 million observations and 672 covariates.
翻訳日:2024-05-29 17:59:58 公開日:2024-05-28
# 高速道路の強化学習

Highway Reinforcement Learning ( http://arxiv.org/abs/2405.18289v1 )

ライセンス: Link先を確認
Yuhui Wang, Miroslav Strupl, Francesco Faccio, Qingyuan Wu, Haozhe Liu, Michał Grudzień, Xiaoyang Tan, Jürgen Schmidhuber, (参考訳) 政策によって収集された多段階のオフ政治データから学ぶことは、強化学習(RL)の中核的な問題である。 重要サンプリング(IS)に基づくアプローチは、IS比の産物による大きなばらつきに悩まされることが多い。 通常のISフリーのメソッド、例えば$n$-step Q-learningは、アクションの軌跡に沿って$n$タイムステップ($n$をルックアヘッド深さと呼ぶ)を先取りし、追加の調整なしに外部のデータを直接利用する。 それらは$n$の適切な選択のためにうまく機能する。 しかし,このようなISフリーな手法は,特に大額の$n$に対して最適値関数 (VF) を過小評価し,その能力を制限することで,将来的な情報処理の効率化を図っている。 この問題を克服するために、過小評価問題を避け、最適なVFに収束する、ISフリーで多段階のオフ政治手法を導入する。 その中核には単純だが非自明な \emph{highway gate} があり、これは遠未来からの情報の流れをしきい値と比較することによって制御する。 ハイウェイゲートは任意の$n$および任意の行動ポリシーに対して最適なVFへの収束を保証する。 これは、$n$が非常に大きい場合でも安全に学習し、遠い未来から過去の迅速なクレジット割り当てを促進する、新しい非政治的RLアルゴリズムのファミリーを生み出します。 ゲーム終了時にのみ報酬が与えられるビデオゲームなど、非常に遅延した報酬を伴うタスクにおいて、我々の新しい手法は、既存のマルチステップオフポリシーアルゴリズムよりも優れています。

Learning from multi-step off-policy data collected by a set of policies is a core problem of reinforcement learning (RL). Approaches based on importance sampling (IS) often suffer from large variances due to products of IS ratios. Typical IS-free methods, such as $n$-step Q-learning, look ahead for $n$ time steps along the trajectory of actions (where $n$ is called the lookahead depth) and utilize off-policy data directly without any additional adjustment. They work well for proper choices of $n$. We show, however, that such IS-free methods underestimate the optimal value function (VF), especially for large $n$, restricting their capacity to efficiently utilize information from distant future time steps. To overcome this problem, we introduce a novel, IS-free, multi-step off-policy method that avoids the underestimation issue and converges to the optimal VF. At its core lies a simple but non-trivial \emph{highway gate}, which controls the information flow from the distant future by comparing it to a threshold. The highway gate guarantees convergence to the optimal VF for arbitrary $n$ and arbitrary behavioral policies. It gives rise to a novel family of off-policy RL algorithms that safely learn even when $n$ is very large, facilitating rapid credit assignment from the far future to the past. On tasks with greatly delayed rewards, including video games where the reward is given only at the end of the game, our new methods outperform many existing multi-step off-policy algorithms.
翻訳日:2024-05-29 17:59:58 公開日:2024-05-28
# FedSAC:フェデレートラーニングにおける協調フェアネスのための動的サブモデルアロケーション

FedSAC: Dynamic Submodel Allocation for Collaborative Fairness in Federated Learning ( http://arxiv.org/abs/2405.18291v1 )

ライセンス: Link先を確認
Zihui Wang, Zheng Wang, Lingjuan Lyu, Zhaopeng Peng, Zhicheng Yang, Chenglu Wen, Rongshan Yu, Cheng Wang, Xiaoliang Fan, (参考訳) 協力的公正は、個々の貢献に基づいて報酬を均等に分配することによって、クライアントの参加を促進するために、連合学習において不可欠な要素である。 既存の手法は主に、協調的公正性を達成するために、クライアント間の勾配割り当てを調整することに焦点を当てている。 しかし、ローカルモデル全体の一貫性を維持することや、ハイコントリビュートクライアントの多様な要求に対処することなど、重要な要素をしばしば見落としている。 この監視は必然的に、フェアネスとモデルの精度の両方を減少させる。 これらの課題に対処するために,FedSACを提案する。FedSACは,理論的収束保証を背景として,協調フェアネスのための動的サブモデルアロケーションを備えた,新しいフェデレーション学習フレームワークである。 まず、各顧客への貢献に基づいて報酬を調整し、公平性を確保する「バウンド・コラボレーティブ・フェアネス(BCF)」という概念を提示する。 第二に、BCFを実装するために、理論的に公正性を保証するサブモデルアロケーションモジュールを設計する。 このモジュールは、様々な重要なニューロンを含む高性能サブモデルでハイコントリビュートクライアントをインセンティブ化し、ローカルモデル間の一貫性を保つ。 第3に、サブモデルを適応的に集約し、低周波ニューロンの公平な処理を確実にし、結果として全体のモデル精度を向上させる動的集約モジュールを開発する。 3つの公開ベンチマークで実施された大規模な実験は、FedSACが全てのベースライン法を公平性とモデル精度の両方で上回っていることを示している。 この作業は、フェデレートラーニングにおけるより広範なクライアント参加を促進するための重要なステップだと考えています。 ソースコードはhttps://github.com/wangzihuixmu/FedSACで入手できる。

Collaborative fairness stands as an essential element in federated learning to encourage client participation by equitably distributing rewards based on individual contributions. Existing methods primarily focus on adjusting gradient allocations among clients to achieve collaborative fairness. However, they frequently overlook crucial factors such as maintaining consistency across local models and catering to the diverse requirements of high-contributing clients. This oversight inevitably decreases both fairness and model accuracy in practice. To address these issues, we propose FedSAC, a novel Federated learning framework with dynamic Submodel Allocation for Collaborative fairness, backed by a theoretical convergence guarantee. First, we present the concept of "bounded collaborative fairness (BCF)", which ensures fairness by tailoring rewards to individual clients based on their contributions. Second, to implement the BCF, we design a submodel allocation module with a theoretical guarantee of fairness. This module incentivizes high-contributing clients with high-performance submodels containing a diverse range of crucial neurons, thereby preserving consistency across local models. Third, we further develop a dynamic aggregation module to adaptively aggregate submodels, ensuring the equitable treatment of low-frequency neurons and consequently enhancing overall model accuracy. Extensive experiments conducted on three public benchmarks demonstrate that FedSAC outperforms all baseline methods in both fairness and model accuracy. We see this work as a significant step towards incentivizing broader client participation in federated learning. The source code is available at https://github.com/wangzihuixmu/FedSAC.
翻訳日:2024-05-29 17:59:58 公開日:2024-05-28
# セマンティック・アズ・ビーコン : 知識学習におけるパラメータ効率の良い微調整のセマンティック・パースペクティブ

Semantic are Beacons: A Semantic Perspective for Unveiling Parameter-Efficient Fine-Tuning in Knowledge Learning ( http://arxiv.org/abs/2405.18292v1 )

ライセンス: Link先を確認
Renzhi Wang, Piji Li, (参考訳) パラメータ効率の良いファインチューニング(PEFT)手法により、様々な下流アプリケーションにLarge Language Models(LLM)を効率的に適用できる。 しかし、下流タスクが事実知識の正確な学習を必要とする場合、PEFTの有効性は顕著に低下する。 本稿では,PEFTの知識学習課題における限界の背景を解明し,この現象を解析するために意味論的視点を採用する。 その結果,(1)PEFTは意図した知識目標からモデルを遠ざけるという顕著なリスクを示し,(2)複数の知識が相互に干渉し,その干渉が知識特徴の学習と表現を抑制することがわかった。 これらの知見に基づいて、知識学習に有害なデータを排除するためのデータフィルタリング戦略と、知識学習中に意味的距離に注意を向けるための再重み付き学習戦略を導入する。 実験により,提案手法がオープンソースの大規模言語モデルに対して有効であることを示すとともに,PEFTにおける意味的課題をさらに検証し,今後の研究への道を開いた。

Parameter-Efficient Fine-Tuning (PEFT) methods enable efficient adaptation of Large Language Models (LLMs) to various downstream applications. However, the effectiveness of the PEFT diminishes notably when downstream tasks require accurate learning of factual knowledge. In this paper, we adopt a semantic perspective to investigate this phenomenon, uncovering the reasons behind PEFT's limitations in knowledge learning task. Our findings reveal that: (1) PEFT presents a notable risk of pushing the model away from the intended knowledge target; (2) multiple knowledge interfere with each other, and such interference suppresses the learning and expression of knowledge features. Based on these insights, we introduce a data filtering strategy to exclude data that is detrimental to knowledge learning and a re-weighted learning strategy to make the model attentive to semantic distance during knowledge learning. Experimental results demonstrate the effectiveness of the proposed method on open-source large language model, further validate the semantic challenge in PEFT, thus paving the way for future research.
翻訳日:2024-05-29 17:59:58 公開日:2024-05-28
# CF-OPT:構造予測のための非現実的説明

CF-OPT: Counterfactual Explanations for Structured Prediction ( http://arxiv.org/abs/2405.18293v1 )

ライセンス: Link先を確認
Germain Vivier--Ardisson, Alexandre Forel, Axel Parmentier, Thibaut Vidal, (参考訳) ディープニューラルネットワークの最適化レイヤは構造化学習で人気を博し、さまざまなアプリケーションにおける最先端技術を改善している。 しかし、これらのパイプラインは2つの不透明な層で構成されており、ディープニューラルネットワークのような非常に非線形な予測モデルと、通常複雑なブラックボックス解決器である最適化層であるため、解釈不可能である。 我々のゴールは、このような手法の透明性を向上させることであり、対実的な説明を提供することである。 我々は、変分自己エンコーダに基づいて、反事実を得るための原則化された方法を構築し、潜在空間で働くことは、説明の妥当性という自然な概念につながる。 最終的に、VAEトレーニングの古典的な損失の変種を導入し、特定の構造化コンテキストにおけるパフォーマンスを改善しました。 これらはCF-OPTの基礎を提供しており、これは一階最適化アルゴリズムであり、幅広い階層の構造化学習アーキテクチャの対実的な説明を見つけることができる。 以上の結果から,近年の文献の問題点に対して,近い説明と妥当な説明の両立が可能であることが示唆された。

Optimization layers in deep neural networks have enjoyed a growing popularity in structured learning, improving the state of the art on a variety of applications. Yet, these pipelines lack interpretability since they are made of two opaque layers: a highly non-linear prediction model, such as a deep neural network, and an optimization layer, which is typically a complex black-box solver. Our goal is to improve the transparency of such methods by providing counterfactual explanations. We build upon variational autoencoders a principled way of obtaining counterfactuals: working in the latent space leads to a natural notion of plausibility of explanations. We finally introduce a variant of the classic loss for VAE training that improves their performance in our specific structured context. These provide the foundations of CF-OPT, a first-order optimization algorithm that can find counterfactual explanations for a broad class of structured learning architectures. Our numerical results show that both close and plausible explanations can be obtained for problems from the recent literature.
翻訳日:2024-05-29 17:59:58 公開日:2024-05-28
# 人間の意図に基づくRGB-DスキャンにおけるIntent3D:3Dオブジェクト検出

Intent3D: 3D Object Detection in RGB-D Scans Based on Human Intention ( http://arxiv.org/abs/2405.18295v1 )

ライセンス: Link先を確認
Weitai Kang, Mengxue Qu, Jyoti Kini, Yunchao Wei, Mubarak Shah, Yan Yan, (参考訳) 現実のシナリオでは、人間は日常的なニーズや意図を満たすために、3D世界のオブジェクトを探します。 このことから,RGB-Dを用いた3次元物体検出における新たな課題である,「背中を支える何かが欲しい」といった人間の意図に基づく3次元物体検出の導入が示唆された。 近縁な3Dビジュアルグラウンドは、人間の参照を理解することに焦点を当てている。 人間の意図に基づく検出を実現するため、人間にシーンを観察させ、意図に沿ったターゲット(この場合「ピロー」)を推論し、最後に「ソファの枕」のようなAIシステムへの参照を与える。 代わりに、3DインテンショニングはAIエージェントに対して、人間の意図のみに基づいて、望まれるターゲットを自動的に観察し、推論し、検出するように挑戦する。 この課題に対処するために、ScanNetデータセットの1,042シーンから209のきめ細かいクラスに関連付けられた44,990の意図的なテキストからなる新しいIntent3Dデータセットを紹介した。 また、ベンチマークに基づいて、異なる言語ベースの3Dオブジェクト検出モデルに基づいて、いくつかのベースラインを確立する。 最後に、この意図に基づく検出問題に対処するために設計された、我々のユニークなアプローチであるIntentNetを提案する。 それは、意図的理解、オブジェクト候補を特定する推論、および複数の目的最適化のために異なる損失の本質的な優先度論理を活用する適応学習の3つの重要な側面に焦点を当てている。

In real-life scenarios, humans seek out objects in the 3D world to fulfill their daily needs or intentions. This inspires us to introduce 3D intention grounding, a new task in 3D object detection employing RGB-D, based on human intention, such as "I want something to support my back". Closely related, 3D visual grounding focuses on understanding human reference. To achieve detection based on human intention, it relies on humans to observe the scene, reason out the target that aligns with their intention ("pillow" in this case), and finally provide a reference to the AI system, such as "A pillow on the couch". Instead, 3D intention grounding challenges AI agents to automatically observe, reason and detect the desired target solely based on human intention. To tackle this challenge, we introduce the new Intent3D dataset, consisting of 44,990 intention texts associated with 209 fine-grained classes from 1,042 scenes of the ScanNet dataset. We also establish several baselines based on different language-based 3D object detection models on our benchmark. Finally, we propose IntentNet, our unique approach, designed to tackle this intention-based detection problem. It focuses on three key aspects: intention understanding, reasoning to identify object candidates, and cascaded adaptive learning that leverages the intrinsic priority logic of different losses for multiple objective optimization.
翻訳日:2024-05-29 17:50:12 公開日:2024-05-28
# 運動のバイアス:SGDトレーニングにおけるバイアスのダイナミクスに関する理論的考察

Bias in Motion: Theoretical Insights into the Dynamics of Bias in SGD Training ( http://arxiv.org/abs/2405.18296v1 )

ライセンス: Link先を確認
Anchit Jain, Rozhin Nobahari, Aristide Baratin, Stefano Sarao Mannelli, (参考訳) 機械学習システムは、データ内の望ましくない特徴を活用してバイアスを取得し、異なるサブ人口間で精度が変動する。 バイアス形成の現在の理解は、主に学習の初期段階と最終段階に焦点を当て、過渡的なダイナミクスに関する知識の欠如を残している。 このギャップに対処するために,ガウス混合モデルを用いて異なるデータサブポピュレーションをモデル化する教師学生設定におけるバイアスの進化について検討する。 この設定において線形分類器の確率勾配勾配ダイナミクスを解析的に記述し、これを高次元で正確に証明する。 特に, サブ集団の異なる特性が, 異なる時間尺度におけるバイアスにどのように影響するかを明らかにするとともに, 学習中の分類器の好みの変化を示す。 この発見を公平性と堅牢性に適用することで、不均一なデータと突発的な特徴がバイアスを発生し増幅する方法について、いつ、どのように、どのように、どのようにして、そして、どのようにして、そのバイアスを増大させるかを説明します。 我々は、CIFAR10、MNIST、CelebAなどの合成および実際のデータセット上で、より深いネットワークをトレーニングすることで、より複雑なシナリオで結果を実証的に検証する。

Machine learning systems often acquire biases by leveraging undesired features in the data, impacting accuracy variably across different sub-populations. Current understanding of bias formation mostly focuses on the initial and final stages of learning, leaving a gap in knowledge regarding the transient dynamics. To address this gap, this paper explores the evolution of bias in a teacher-student setup modeling different data sub-populations with a Gaussian-mixture model. We provide an analytical description of the stochastic gradient descent dynamics of a linear classifier in this setting, which we prove to be exact in high dimension. Notably, our analysis reveals how different properties of sub-populations influence bias at different timescales, showing a shifting preference of the classifier during training. Applying our findings to fairness and robustness, we delineate how and when heterogeneous data and spurious features can generate and amplify bias. We empirically validate our results in more complex scenarios by training deeper networks on synthetic and real datasets, including CIFAR10, MNIST, and CelebA.
翻訳日:2024-05-29 17:50:12 公開日:2024-05-28
# ベイジアンネットワーク分類器の文脈特徴化

Context-Specific Refinements of Bayesian Network Classifiers ( http://arxiv.org/abs/2405.18298v1 )

ライセンス: Link先を確認
Manuele Leonelli, Gherardo Varando, (参考訳) 監視された分類は、機械学習において最もユビキタスなタスクの1つである。 ベイズネットワークに基づく生成的分類器は、解釈可能性と競合精度のためにしばしば使用される。 広く使われているネーブ分類とTAN分類器は、制約付き基礎グラフを持つベイズネットワーク分類器の特定の例である。 本稿では,TANや他の有名なベイズ型ネットワーク分類器を拡張した新規な生成型分類器について紹介する。 提案手法は,ベイジアンネットワークを拡張した木モデルに基づく。 我々は、新しい分類器のクラスとベイズネットワークの関係を正式に研究する。 本研究では,データ駆動型学習ルーチンの導入と実装を行い,その精度を広範囲にわたる計算研究で検証する。 この研究は、非対称情報を埋め込んだモデルが分類精度を高めることを実証している。

Supervised classification is one of the most ubiquitous tasks in machine learning. Generative classifiers based on Bayesian networks are often used because of their interpretability and competitive accuracy. The widely used naive and TAN classifiers are specific instances of Bayesian network classifiers with a constrained underlying graph. This paper introduces novel classes of generative classifiers extending TAN and other famous types of Bayesian network classifiers. Our approach is based on staged tree models, which extend Bayesian networks by allowing for complex, context-specific patterns of dependence. We formally study the relationship between our novel classes of classifiers and Bayesian networks. We introduce and implement data-driven learning routines for our models and investigate their accuracy in an extensive computational study. The study demonstrates that models embedding asymmetric information can enhance classification accuracy.
翻訳日:2024-05-29 17:50:12 公開日:2024-05-28
# 水中廃棄物検出のための深層学習技術:深部分析

Deep Learning Innovations for Underwater Waste Detection: An In-Depth Analysis ( http://arxiv.org/abs/2405.18299v1 )

ライセンス: Link先を確認
Jaskaran Singh Walia, Pavithra L K, (参考訳) 水没した水中ゴミの問題は、水生生態系の保護と海洋生物の保全に不可欠である。 水面に存在する破片の識別は簡単であるが, 光屈折, 吸収, 懸濁粒子, 色変化, 閉塞などの要因による画像歪みが原因で, 水中下水廃物の評価は困難である。 本稿では, 埋立廃棄物処理とごみ処理の基盤となるため, 最先端のアーキテクチャと既存のデータセットを網羅的に検討する。 第一の目的は、高度な水中センサーと自律型水中車両によって活用される物体の局所化手法のベンチマークを確立することである。 最終的な目的は、水中環境を探索し、水中の破片を特定し、除去することである。 多くの研究におけるベンチマーク(データセットやアルゴリズム)の欠如は、より堅牢なアルゴリズムソリューションの必要性を強調している。 本研究は, 水中ゴミ検出アルゴリズムの性能比較分析を行うことを目的とする。

Addressing the issue of submerged underwater trash is crucial for safeguarding aquatic ecosystems and preserving marine life. While identifying debris present on the surface of water bodies is straightforward, assessing the underwater submerged waste is a challenge due to the image distortions caused by factors such as light refraction, absorption, suspended particles, color shifts, and occlusion. This paper conducts a comprehensive review of state-of-the-art architectures and on the existing datasets to establish a baseline for submerged waste and trash detection. The primary goal remains to establish the benchmark of the object localization techniques to be leveraged by advanced underwater sensors and autonomous underwater vehicles. The ultimate objective is to explore the underwater environment, to identify, and remove underwater debris. The absence of benchmarks (dataset or algorithm) in many researches emphasizes the need for a more robust algorithmic solution. Through this research, we aim to give performance comparative analysis of various underwater trash detection algorithms.
翻訳日:2024-05-29 17:50:12 公開日:2024-05-28
# CompetEvo: 競争のモルフォロジー進化を目指して

CompetEvo: Towards Morphological Evolution from Competition ( http://arxiv.org/abs/2405.18300v1 )

ライセンス: Link先を確認
Kangyao Huang, Di Guo, Xinyu Zhang, Xiangyang Ji, Huaping Liu, (参考訳) 形態学と制御の協調最適化を通じて、特定のタスクに適応するためのエージェントの訓練が広く注目を集めている。 しかし、マルチエージェント競合シナリオにエージェントの最適設定と戦術が存在するかどうかは、決定的に結論付けるのが難しい問題である。 この文脈では、エージェントの設計と対決戦術を共進化させる競争進化(CompetEvo)を提案する。 我々は3つの動物とその進化した誘導体からなるアリーナを構築し、互いに直接競合する異なる形態のエージェントを配置する。 以上の結果から,本手法は,固定形態エージェントよりも戦闘に適した設計と戦略を進化させ,戦闘シナリオの利点を享受できることが判明した。 さらに,非対称な形態下で対決を行う際に生じる驚くべき,印象的な挙動を実演する。

Training an agent to adapt to specific tasks through co-optimization of morphology and control has widely attracted attention. However, whether there exists an optimal configuration and tactics for agents in a multiagent competition scenario is still an issue that is challenging to definitively conclude. In this context, we propose competitive evolution (CompetEvo), which co-evolves agents' designs and tactics in confrontation. We build arenas consisting of three animals and their evolved derivatives, placing agents with different morphologies in direct competition with each other. The results reveal that our method enables agents to evolve a more suitable design and strategy for fighting compared to fixed-morph agents, allowing them to obtain advantages in combat scenarios. Moreover, we demonstrate the amazing and impressive behaviors that emerge when confrontations are conducted under asymmetrical morphs.
翻訳日:2024-05-29 17:50:12 公開日:2024-05-28
# ディープ・ネットワーク・プルーニング:顔認識におけるCNNの比較研究

Deep Network Pruning: A Comparative Study on CNNs in Face Recognition ( http://arxiv.org/abs/2405.18302v1 )

ライセンス: Link先を確認
Fernando Alonso-Fernandez, Kevin Hernandez-Diaz, Jose Maria Buades Rubio, Prayag Tiwari, Josef Bigun, (参考訳) あらゆる種類のトランザクションにモバイルデバイスが広く使用されることにより、信頼性とリアルタイムのID認証が必要となり、そのようなデバイスに埋め込まれたカメラを介して顔認識(FR)が採用される。 深層畳み込みニューラルネットワーク(CNN)の進歩はFRに大きな進歩をもたらした。 それでも、最先端アーキテクチャのサイズは、数十メガバイトと数百万のパラメータを含むことが多いため、モバイルデプロイメントには適していない。 FRに適用したディープ・ネットワーク・圧縮の手法を研究することによってこの問題に対処する。 特に、Taylorのスコアに基づくネットワークプルーニングを適用し、重要でないフィルタを反復的に除去する。 この方法は、小さなSqueezeNet (1.24Mパラメータ)と人気のあるMobileNetv2 (3.5M)とResNet50 (23.5M)アーキテクチャに基づいて、3つのネットワークでテストされる。 これらは、複雑さとサイズが異なるCNNでこの方法を示すために選択されている。 フィルタのかなりの割合は、性能損失を最小限に抑えて取り除くことができる。 また、最大出力チャネルを持つフィルタは、まず除去される傾向にあり、一般的なCNN内の高次元空間が過次元化されていることを示唆している。

The widespread use of mobile devices for all kind of transactions makes necessary reliable and real-time identity authentication, leading to the adoption of face recognition (FR) via the cameras embedded in such devices. Progress of deep Convolutional Neural Networks (CNNs) has provided substantial advances in FR. Nonetheless, the size of state-of-the-art architectures is unsuitable for mobile deployment, since they often encompass hundreds of megabytes and millions of parameters. We address this by studying methods for deep network compression applied to FR. In particular, we apply network pruning based on Taylor scores, where less important filters are removed iteratively. The method is tested on three networks based on the small SqueezeNet (1.24M parameters) and the popular MobileNetv2 (3.5M) and ResNet50 (23.5M) architectures. These have been selected to showcase the method on CNNs with different complexities and sizes. We observe that a substantial percentage of filters can be removed with minimal performance loss. Also, filters with the highest amount of output channels tend to be removed first, suggesting that high-dimensional spaces within popular CNNs are over-dimensionated.
翻訳日:2024-05-29 17:50:12 公開日:2024-05-28
# クロスモーダルインコンテキスト学習によるマルチモーダル生成

Multi-modal Generation via Cross-Modal In-Context Learning ( http://arxiv.org/abs/2405.18304v1 )

ライセンス: Link先を確認
Amandeep Kumar, Muzammal Naseer, Sanath Narayan, Rao Muhammad Anwer, Salman Khan, Hisham Cholakkal, (参考訳) 本研究では,複雑なマルチモーダルプロンプト列から新しい画像を生成する問題について検討する。 既存の手法はテキスト・画像生成に有望な結果をもたらすが、長いプロンプトから細かな詳細を捉え、プロンプトシーケンス内でコンテキストコヒーレンスを維持するのに苦労することが多い。 さらに、複数のオブジェクトを特徴とするプロンプトシーケンスに対して、不整合画像を生成することもしばしばある。 そこで本研究では,大規模言語モデル(LLM)と拡散モデルを組み合わせた機能を利用して,複雑なマルチモーダルプロンプトシーケンスから新しい画像を生成する,クロスモーダル・インコンテキスト・ラーニング(MGCC)手法を提案する。 我々のMGCCは,LLM埋め込み空間におけるテキストと画像間の相互依存を明示的に学習するクロスモーダル・リファインメント・モジュールと,複数のオブジェクトを対象とするシーンを対象とするオブジェクト境界ボックスを生成するコンテキストオブジェクトグラウンド・モジュールを備える。 我々のMGCCは、新しい画像生成、マルチモーダル対話の促進、テキスト生成など、多種多様なマルチモーダル機能を示している。 2つのベンチマークデータセットの実験的評価を行い,本手法の有効性を実証した。 マルチモーダルな入力を持つビジュアルストーリー生成(VIST)データセットでは、MGCCはSOTA GILL $0.641$に比べてCLIP類似度スコアが0.652$である。 同様に、長い対話シーケンスを持つVisual Dialogue Context(VisDial)では、MGCCは印象的なCLIPスコアが0.660$であり、既存のSOTAメソッドよりも0.645$である。 コード:https://github.com/VIROBO-15/MGCC

In this work, we study the problem of generating novel images from complex multimodal prompt sequences. While existing methods achieve promising results for text-to-image generation, they often struggle to capture fine-grained details from lengthy prompts and maintain contextual coherence within prompt sequences. Moreover, they often result in misaligned image generation for prompt sequences featuring multiple objects. To address this, we propose a Multi-modal Generation via Cross-Modal In-Context Learning (MGCC) method that generates novel images from complex multimodal prompt sequences by leveraging the combined capabilities of large language models (LLMs) and diffusion models. Our MGCC comprises a novel Cross-Modal Refinement module to explicitly learn cross-modal dependencies between the text and image in the LLM embedding space, and a contextual object grounding module to generate object bounding boxes specifically targeting scenes with multiple objects. Our MGCC demonstrates a diverse range of multimodal capabilities, like novel image generation, the facilitation of multimodal dialogue, and generation of texts. Experimental evaluations on two benchmark datasets, demonstrate the effectiveness of our method. On Visual Story Generation (VIST) dataset with multimodal inputs, our MGCC achieves a CLIP Similarity score of $0.652$ compared to SOTA GILL $0.641$. Similarly, on Visual Dialogue Context (VisDial) having lengthy dialogue sequences, our MGCC achieves an impressive CLIP score of $0.660$, largely outperforming existing SOTA method scoring $0.645$. Code: https://github.com/VIROBO-15/MGCC
翻訳日:2024-05-29 17:50:12 公開日:2024-05-28
# 不完全なデータから段階木を学ぶ

Learning Staged Trees from Incomplete Data ( http://arxiv.org/abs/2405.18306v1 )

ライセンス: Link先を確認
Jack Storror Carter, Manuele Leonelli, Eva Riccomagno, Gherardo Varando, (参考訳) ステージ木(Staged tree)は、その頂点の彩色を通して任意の非対称独立を表現できる確率的グラフィカルモデルである。 いくつかの構造学習ルーチンが定義され、周期主義的あるいはベイズ的パラダイムの下で、データからステージドツリーを学習するために実装されている。 彼らはデータセットが完全に観察されていると仮定し、実際には、欠落したエントリの観察は、モデルを学ぶ前にドロップするか、あるいはインプットされる。 ここでは、モデル学習における欠落を処理するステージ木の最初のアルゴリズムを紹介する。 この目的のために、欠落したデータの存在下でのステージツリーモデルの可能性を明らかにし、それを近似する擬似的類似性について議論する。 また、全確率からモデルを直接推定する構造予測最大化アルゴリズムを実装し、評価した。 計算実験では、新しい学習アルゴリズムの性能を実証し、ステージ木を学習する際、異なる欠落パターンを考慮に入れることが可能であることを示した。

Staged trees are probabilistic graphical models capable of representing any class of non-symmetric independence via a coloring of its vertices. Several structural learning routines have been defined and implemented to learn staged trees from data, under the frequentist or Bayesian paradigm. They assume a data set has been observed fully and, in practice, observations with missing entries are either dropped or imputed before learning the model. Here, we introduce the first algorithms for staged trees that handle missingness within the learning of the model. To this end, we characterize the likelihood of staged tree models in the presence of missing data and discuss pseudo-likelihoods that approximate it. A structural expectation-maximization algorithm estimating the model directly from the full likelihood is also implemented and evaluated. A computational experiment showcases the performance of the novel learning algorithms, demonstrating that it is feasible to account for different missingness patterns when learning staged trees.
翻訳日:2024-05-29 17:50:12 公開日:2024-05-28
# LEMMINGによる関節補綴と形態的タグ付け

Joint Lemmatization and Morphological Tagging with LEMMING ( http://arxiv.org/abs/2405.18308v1 )

ライセンス: Link先を確認
Thomas Muller, Ryan Cotterell, Alexander Fraser, Hinrich Schütze, (参考訳) LEMMingはモジュール型対数線形モデルであり,任意のグローバル機能の統合をサポートする。 金の標準タグとレマタでアノテートされたコーパスで訓練でき、形態辞書やアナライザに依存しない。 LEMMINGは、6つの言語でトークンベースの統計補題化の最先端を新たに定義している。例えばチェコの補題化では、エラーを4.05から1.58に60%削減する。 また,形態的タグとレマタが相互に有用であることを示す実証的証拠も提示する。

We present LEMMING, a modular log-linear model that jointly models lemmatization and tagging and supports the integration of arbitrary global features. It is trainable on corpora annotated with gold standard tags and lemmata and does not rely on morphological dictionaries or analyzers. LEMMING sets the new state of the art in token-based statistical lemmatization on six languages; e.g., for Czech lemmatization, we reduce the error by 60%, from 4.05 to 1.58. We also give empirical evidence that jointly modeling morphological tags and lemmata is mutually beneficial.
翻訳日:2024-05-29 17:50:12 公開日:2024-05-28
# パラメトリック物理インフォームドニューラルネットワークを用いた全フィールドデータからの構成モデルの決定論的・統計的キャリブレーション

Deterministic and statistical calibration of constitutive models from full-field data with parametric physics-informed neural networks ( http://arxiv.org/abs/2405.18311v1 )

ライセンス: Link先を確認
David Anton, Jendrik-Alexander Tröger, Henning Wessels, Ulrich Römer, Alexander Henkes, Stefan Hartmann, (参考訳) フルフィールドデータからの構成モデルの校正は、最近、フルフィールド計測能力の改善により、関心が高まっている。 新規材料を実験的に評価することに加え、継続的構造健康モニタリングも非常に興味深い応用である。 しかしながら、監視は通常、厳密な時間制約と結びついており、標準的な数値的アプローチに適合するのは難しい。 そこで本研究では,全フィールド変位データから構成モデルの校正を行うパラメトリック物理情報ニューラルネットワーク(PINN)について検討した。 オフラインの段階では、パラメトリックPINNをトレーニングして、基礎となる偏微分方程式のパラメータ化解を学ぶことができる。 その後のオンライン段階では、パラメトリックPINNはキャリブレーションにおけるパラメータ・ツー・ステートマップのサロゲートとして機能する。 本研究では, 線形弾性の最小二乗キャリブレーションと高弾性構成モデルについて, ノイズのある合成変位データから検討した。 さらにマルコフ連鎖モンテカルロに基づくベイズ推定を行い、不確実性を定量化する。 結果の適切な統計的評価は、決定論的キャリブレーションの高精度な精度と、推定された不確実性が有効であることを示す。 最後に、実験データを考察し、その結果が有限要素法に基づくキャリブレーションと良好に一致していることを示す。 PINNの高速評価により、ほぼリアルタイムでキャリブレーションを行うことができる。 この利点はマルコフ連鎖モンテカルロに基づくベイズ予想のような多くのクエリー応用において顕著である。

The calibration of constitutive models from full-field data has recently gained increasing interest due to improvements in full-field measurement capabilities. In addition to the experimental characterization of novel materials, continuous structural health monitoring is another application that is of great interest. However, monitoring is usually associated with severe time constraints, difficult to meet with standard numerical approaches. Therefore, parametric physics-informed neural networks (PINNs) for constitutive model calibration from full-field displacement data are investigated. In an offline stage, a parametric PINN can be trained to learn a parameterized solution of the underlying partial differential equation. In the subsequent online stage, the parametric PINN then acts as a surrogate for the parameters-to-state map in calibration. We test the proposed approach for the deterministic least-squares calibration of a linear elastic as well as a hyperelastic constitutive model from noisy synthetic displacement data. We further carry out Markov chain Monte Carlo-based Bayesian inference to quantify the uncertainty. A proper statistical evaluation of the results underlines the high accuracy of the deterministic calibration and that the estimated uncertainty is valid. Finally, we consider experimental data and show that the results are in good agreement with a Finite Element Method-based calibration. Due to the fast evaluation of PINNs, calibration can be performed in near real-time. This advantage is particularly evident in many-query applications such as Markov chain Monte Carlo-based Bayesian inference.
翻訳日:2024-05-29 17:50:12 公開日:2024-05-28
# 単一変数干渉による因果順序の導出:保証とアルゴリズム

Deriving Causal Order from Single-Variable Interventions: Guarantees & Algorithm ( http://arxiv.org/abs/2405.18314v1 )

ライセンス: Link先を確認
Mathieu Chevalley, Patrick Schwab, Arash Mehrjou, (参考訳) システムに対する標的的かつ均一な介入は、因果関係を明らかにするために不可欠である。 因果構造学習のための介入データを活用するためにいくつかの手法が開発されているが、現実のシナリオにおける実践的応用は依然として困難なままである。 最近のベンチマークでは、多数の単一変数の介入サンプルが利用可能であっても、これらの困難が強調されている。 本研究では、理論的にも実証的にも、そのようなデータセットには、データ分布に関する現実的な仮定の下で効果的に抽出できる豊富な因果情報が含まれていることを実証する。 より具体的には、観察的および介入的設定における各変数の限界分布の比較に依拠する介入忠実性の概念を導入し、因果順序に関するスコアを導入する。 この仮定の下で、我々は、大規模な設定にも耐えうるスコアの最適性について、強力な理論的保証を証明できる。 我々は,この理論を実証的に検証するために,大まかにスコアを最適化することにより,多数の単一変数の介入を含むデータセットから因果順序を推定するアルゴリズムであるIntersortを導入する。 Intersortは、フィールドで一般的なベンチマークを複製するほとんどすべてのシミュレートされたデータ設定でベースライン(GIES、PC、EASE)を上回ります。 提案手法は、介入データセットをモデル化し、因果推論を推し進めるための有望な道を提供し、現実的な仮定の下でさらなる拡張の可能性を明らかにする。

Targeted and uniform interventions to a system are crucial for unveiling causal relationships. While several methods have been developed to leverage interventional data for causal structure learning, their practical application in real-world scenarios often remains challenging. Recent benchmark studies have highlighted these difficulties, even when large numbers of single-variable intervention samples are available. In this work, we demonstrate, both theoretically and empirically, that such datasets contain a wealth of causal information that can be effectively extracted under realistic assumptions about the data distribution. More specifically, we introduce the notion of interventional faithfulness, which relies on comparisons between the marginal distributions of each variable across observational and interventional settings, and we introduce a score on causal orders. Under this assumption, we are able to prove strong theoretical guarantees on the optimum of our score that also hold for large-scale settings. To empirically verify our theory, we introduce Intersort, an algorithm designed to infer the causal order from datasets containing large numbers of single-variable interventions by approximately optimizing our score. Intersort outperforms baselines (GIES, PC and EASE) on almost all simulated data settings replicating common benchmarks in the field. Our proposed novel approach to modeling interventional datasets thus offers a promising avenue for advancing causal inference, highlighting significant potential for further enhancements under realistic assumptions.
翻訳日:2024-05-29 17:50:12 公開日:2024-05-28
# DSDL:AIデータのモダリティとタスクをブリッジするためのデータセット記述言語

DSDL: Data Set Description Language for Bridging Modalities and Tasks in AI Data ( http://arxiv.org/abs/2405.18315v1 )

ライセンス: Link先を確認
Bin Wang, Linke Ouyang, Fan Wu, Wenchang Ning, Xiao Han, Zhiyuan Zhao, Jiahui Peng, Yiying Jiang, Dahua Lin, Conghui He, (参考訳) 人工知能の時代において、データモダリティとアノテーションフォーマットの多様性は、しばしば直接使用不可能なデータをレンダリングし、異なるニーズを持つ研究者や開発者が使用する前に、理解とフォーマット変換を必要とする。 この問題に対処するため,本稿では,AIデータセットの統一標準を提供することで,データセット処理を簡素化することを目的とした,データセット記述言語(DSDL)というフレームワークを紹介する。 DSDLは、汎用的でポータブルで拡張可能な3つの基本的な実践原則に準拠しており、異なるモダリティと構造のデータを統一された標準を使用して表現し、AIデータの拡散を容易にし、新しいモダリティとタスクに容易に拡張する。 DSDLの標準化された仕様は、データの拡散、処理、使用におけるユーザの作業量を削減します。 ユーザの利便性をさらに向上するため、各種タスクのための事前定義されたDSDLテンプレートを提供し、メインストリームのデータセットをDSDL仕様に適合させるとともに、包括的なドキュメントとDSDLツールを提供する。 これらの取り組みは、AIデータの使用を簡素化し、AI開発の効率を向上させることを目的としている。

In the era of artificial intelligence, the diversity of data modalities and annotation formats often renders data unusable directly, requiring understanding and format conversion before it can be used by researchers or developers with different needs. To tackle this problem, this article introduces a framework called Dataset Description Language (DSDL) that aims to simplify dataset processing by providing a unified standard for AI datasets. DSDL adheres to the three basic practical principles of generic, portable, and extensible, using a unified standard to express data of different modalities and structures, facilitating the dissemination of AI data, and easily extending to new modalities and tasks. The standardized specifications of DSDL reduce the workload for users in data dissemination, processing, and usage. To further improve user convenience, we provide predefined DSDL templates for various tasks, convert mainstream datasets to comply with DSDL specifications, and provide comprehensive documentation and DSDL tools. These efforts aim to simplify the use of AI data, thereby improving the efficiency of AI development.
翻訳日:2024-05-29 17:50:12 公開日:2024-05-28
# 自己監督型学習に基づく手書き手書き検証

Self-Supervised Learning Based Handwriting Verification ( http://arxiv.org/abs/2405.18320v1 )

ライセンス: Link先を確認
Mihir Chauhan, Mohammad Abuzar Shaikh, Bina Ramamurthy, Mingchen Gao, Siwei Lyu, Sargur Srihari, (参考訳) 本稿では,手書き検証作業に適用したSSL-HV: Self-Supervised Learning approachを提案する。 このタスクは、与えられた手書き画像のペアが同じまたは異なるライター分布に由来するかどうかを決定することである。 我々は,手作り特徴抽出器とCEDARおよびデータセットを用いた教師あり学習に対して,複数の生成的かつ対照的なSSLアプローチの性能を比較した。 ResNet-18では, 可変不変共分散正規化 (VICReg) を用いて微調整し, 78%の精度で比較した。 著者検証の下流作業にVAEとVICRegを併用し,ResNet-18の教師付きベースラインを10%のライターラベルで比較したところ,精度は6.7%,9%向上した。

We present SSL-HV: Self-Supervised Learning approaches applied to the task of Handwriting Verification. This task involves determining whether a given pair of handwritten images originate from the same or different writer distribution. We have compared the performance of multiple generative, contrastive SSL approaches against handcrafted feature extractors and supervised learning on CEDAR AND dataset. We show that ResNet based Variational Auto-Encoder (VAE) outperforms other generative approaches achieving 76.3% accuracy, while ResNet-18 fine-tuned using Variance-Invariance-Covariance Regularization (VICReg) outperforms other contrastive approaches achieving 78% accuracy. Using a pre-trained VAE and VICReg for the downstream task of writer verification we observed a relative improvement in accuracy of 6.7% and 9% over ResNet-18 supervised baseline with 10% writer labels.
翻訳日:2024-05-29 17:50:12 公開日:2024-05-28
# SCE-MAE:自己監督型ランドマーク推定のためのマスクオートエンコーダによる選択対応強化

SCE-MAE: Selective Correspondence Enhancement with Masked Autoencoder for Self-Supervised Landmark Estimation ( http://arxiv.org/abs/2405.18322v1 )

ライセンス: Link先を確認
Kejia Yin, Varshanth R. Rao, Ruowei Jiang, Xudong Liu, Parham Aarabi, David B. Lindell, (参考訳) 自己監督型ランドマーク推定は、アノテートされたデータがない場合に、スパースな顔のランドマークを特定するために、局所的な特徴表現の形成を要求する難しいタスクである。 この課題に対処するために,既存のSOTA(State-of-the-art)手法は,(1)タスクの密集した予測特性を無視した,インスタンスレベルの自己教師型学習(SSL)パラダイムで訓練されたバックボーンから粗い特徴を抽出し,(2)メモリ集約型ハイパーカラムに集約し,(3)空間的特徴のすべてに完全な局所的対応性を確立するための軽量プロジェクタネットワークを監督する。 本稿では,(1)領域レベルのSSL方式であるMAEを利用するフレームワークであるSCE-MAEを紹介し,(2)高価なハイパーカラムではなく,バニラ特徴マップ上で動作し,(3)単純な密度ピーククラスタリングアルゴリズムを利用した対応近似・リファインメントブロック(CARB)と,提案した局所性制約型リペランスロスを用いて,ローカルアドレスのみを直接生成する。 我々は,SCE-MAEが極めて有効で堅牢であることを示す広範な実験を通じて,既存のSOTA法よりもランドマークマッチングで約20%-44%,ランドマーク検出タスクで約9%-15%のマージンを達成できた。

Self-supervised landmark estimation is a challenging task that demands the formation of locally distinct feature representations to identify sparse facial landmarks in the absence of annotated data. To tackle this task, existing state-of-the-art (SOTA) methods (1) extract coarse features from backbones that are trained with instance-level self-supervised learning (SSL) paradigms, which neglect the dense prediction nature of the task, (2) aggregate them into memory-intensive hypercolumn formations, and (3) supervise lightweight projector networks to naively establish full local correspondences among all pairs of spatial features. In this paper, we introduce SCE-MAE, a framework that (1) leverages the MAE, a region-level SSL method that naturally better suits the landmark prediction task, (2) operates on the vanilla feature map instead of on expensive hypercolumns, and (3) employs a Correspondence Approximation and Refinement Block (CARB) that utilizes a simple density peak clustering algorithm and our proposed Locality-Constrained Repellence Loss to directly hone only select local correspondences. We demonstrate through extensive experiments that SCE-MAE is highly effective and robust, outperforming existing SOTA methods by large margins of approximately 20%-44% on the landmark matching and approximately 9%-15% on the landmark detection tasks.
翻訳日:2024-05-29 17:50:12 公開日:2024-05-28
# VITON-DiT:Diffusion Transformerを使って人間のダンスビデオから動画を学習する

VITON-DiT: Learning In-the-Wild Video Try-On from Human Dance Videos via Diffusion Transformers ( http://arxiv.org/abs/2405.18326v1 )

ライセンス: Link先を確認
Jun Zheng, Fuwei Zhao, Youjiang Xu, Xin Dong, Xiaodan Liang, (参考訳) ビデオの試行は、その膨大な現実世界の潜在能力にとって有望な分野だ。 これまでの作品では、製品服のイメージを単純なポーズと背景のある人称ビデオに転送することしかできず、カジュアルに撮られたビデオではパフォーマンスが劣っている。 最近Soraは、現実のシナリオを特徴とするライフライクなビデオを生成するために、Diffusion Transformer(DiT)のスケーラビリティを明らかにした。 そこで本研究では,VITON-DiT という,Diton-DiT ベースのビデオ試用フレームワークを試作し,提案する。 具体的には、VITON-DiTは、衣服抽出器、空間-テンポラル denoising DiT、アイデンティティ保存制御ネットから構成される。 衣服の詳細を忠実に回収するために、抽出した衣服特徴を、装飾用DiTと制御ネットの自己注意出力と融合させる。 また、トレーニング中の新しいランダム選択戦略と、長いビデオ生成を容易にするために、推論時に補間自己回帰(IAR)技術を導入する。 VITON-DiTは、ペアリングされたトレーニングデータセットの厳格で制限的な構築を必要とする既存の試みとは異なり、不自由な人間のダンスビデオと慎重に設計されたマルチステージトレーニング戦略にのみ依存することで、そのスケーラビリティを著しく制限する。 さらに,カジュアルなビデオトライオンの性能を評価するために,挑戦的なベンチマークデータセットをキュレートする。 広汎な実験は、複雑な人間のポーズをともなう映像の時空間一貫した試行結果を生成する上で、VITON-DiTの優位性を実証している。

Video try-on stands as a promising area for its tremendous real-world potential. Prior works are limited to transferring product clothing images onto person videos with simple poses and backgrounds, while underperforming on casually captured videos. Recently, Sora revealed the scalability of Diffusion Transformer (DiT) in generating lifelike videos featuring real-world scenarios. Inspired by this, we explore and propose the first DiT-based video try-on framework for practical in-the-wild applications, named VITON-DiT. Specifically, VITON-DiT consists of a garment extractor, a Spatial-Temporal denoising DiT, and an identity preservation ControlNet. To faithfully recover the clothing details, the extracted garment features are fused with the self-attention outputs of the denoising DiT and the ControlNet. We also introduce novel random selection strategies during training and an Interpolated Auto-Regressive (IAR) technique at inference to facilitate long video generation. Unlike existing attempts that require the laborious and restrictive construction of a paired training dataset, severely limiting their scalability, VITON-DiT alleviates this by relying solely on unpaired human dance videos and a carefully designed multi-stage training strategy. Furthermore, we curate a challenging benchmark dataset to evaluate the performance of casual video try-on. Extensive experiments demonstrate the superiority of VITON-DiT in generating spatio-temporal consistent try-on results for in-the-wild videos with complicated human poses.
翻訳日:2024-05-29 17:50:12 公開日:2024-05-28
# 病理組織学的AIモデルによる腎癌臨床治験における抗血管新生療法反応の予測

Histopathology Based AI Model Predicts Anti-Angiogenic Therapy Response in Renal Cancer Clinical Trial ( http://arxiv.org/abs/2405.18327v1 )

ライセンス: Link先を確認
Jay Jasti, Hua Zhong, Vandana Panwar, Vipul Jarmale, Jeffrey Miyata, Deyssy Carrillo, Alana Christie, Dinesh Rakheja, Zora Modrusan, Edward Ernest Kadel III, Niha Beig, Mahrukh Huseni, James Brugarolas, Payal Kapur, Satwik Rajaram, (参考訳) 治療応答の予測的バイオマーカーは、血管新生阻害剤、免疫チェックポイント阻害剤、mTOR阻害剤およびHIF2阻害剤で治療される腫瘍タイプである、転移性クリア細胞腎細胞癌(ccRCC)に欠如している。 血管新生のRNAに基づく定量化であるAngioscoreは、おそらく抗血管新生(AA)反応を予測する最良の候補である。 しかし、トランスクリプトームアッセイの臨床試験は標準化、時間遅延、高コストなどいくつかの課題に直面している。 さらに、ccRCC腫瘍は非常に異種性が高く、シークエンシングのために複数の領域をサンプリングすることは不可能である。 ここでは、ユビキタスな病理組織スライドからAngioscoreを予測するための新しい深層学習(DL)手法を提案する。 典型的なDLモデルの最大の限界である解釈可能性の欠如を克服するため,本モデルでは,モデルの予測に基づく視覚的血管ネットワークを構築した。 信頼性をテストするために,臨床試験データセットを含む複数のコホートにこのモデルを適用した。 我々のモデルは、複数の独立したコホート(0.77と0.73のスピアマン相関)上で、RNAベースのアンジオスコアを正確に予測する。 さらに、これらの予測は、血管新生とグレード、ステージ、ドライバの突然変異状態との関連などの有意義な生物学を解明するのに役立つ。 最後に、実世界コホートとIMmotion150臨床試験の両方において、AA治療に対する反応を予測できることを見出した。 我々のモデルの予測力は、血管のマーカーであるCD31をはるかに上回り、真理RNAベースのAngioscoreの性能(c-index 0.66 vs 0.67)とほぼ競合する。 本手法は血管新生生物学とAA治療反応の知見を提供する。

Predictive biomarkers of treatment response are lacking for metastatic clear cell renal cell carcinoma (ccRCC), a tumor type that is treated with angiogenesis inhibitors, immune checkpoint inhibitors, mTOR inhibitors and a HIF2 inhibitor. The Angioscore, an RNA-based quantification of angiogenesis, is arguably the best candidate to predict anti-angiogenic (AA) response. However, the clinical adoption of transcriptomic assays faces several challenges including standardization, time delay, and high cost. Further, ccRCC tumors are highly heterogenous, and sampling multiple areas for sequencing is impractical. Here we present a novel deep learning (DL) approach to predict the Angioscore from ubiquitous histopathology slides. To overcome the lack of interpretability, one of the biggest limitations of typical DL models, our model produces a visual vascular network which is the basis of the model's prediction. To test its reliability, we applied this model to multiple cohorts including a clinical trial dataset. Our model accurately predicts the RNA-based Angioscore on multiple independent cohorts (spearman correlations of 0.77 and 0.73). Further, the predictions help unravel meaningful biology such as association of angiogenesis with grade, stage, and driver mutation status. Finally, we find our model can predict response to AA therapy, in both a real-world cohort and the IMmotion150 clinical trial. The predictive power of our model vastly exceeds that of CD31, a marker of vasculature, and nearly rivals the performance (c-index 0.66 vs 0.67) of the ground truth RNA-based Angioscore at a fraction of the cost. By providing a robust yet interpretable prediction of the Angioscore from histopathology slides alone, our approach offers insights into angiogenesis biology and AA treatment response.
翻訳日:2024-05-29 17:40:27 公開日:2024-05-28
# 反復ガウス過程に対する温暖化開始連関最適化

Warm Start Marginal Likelihood Optimisation for Iterative Gaussian Processes ( http://arxiv.org/abs/2405.18328v1 )

ライセンス: Link先を確認
Jihao Andreas Lin, Shreyas Padhy, Bruno Mlodozeniec, José Miguel Hernández-Lobato, (参考訳) ガウス過程(英: Gaussian process)は、しばしば良いハイパーパラメータに依存する多目的確率的機械学習モデルである。 本研究では, 繰り返し線形系解法を用いて, 計算時間と解の精度のトレードオフを可能とし, 与えられた数値精度までの距離勾配を近似する反復的手法について考察する。 本稿では,線形方程式の大規模正定値系の逐次バッチを解くことによって計算コストが支配されることを示す。 次に、線形システムソルバの解を次のステップで初期化として再利用して計算を補正し、$\textit{warm start}$を提供する。 最後に、必要な条件について議論し、ウォームスタートの結果を定量化し、その効果を回帰タスクで実証する。

Gaussian processes are a versatile probabilistic machine learning model whose effectiveness often depends on good hyperparameters, which are typically learned by maximising the marginal likelihood. In this work, we consider iterative methods, which use iterative linear system solvers to approximate marginal likelihood gradients up to a specified numerical precision, allowing a trade-off between compute time and accuracy of a solution. We introduce a three-level hierarchy of marginal likelihood optimisation for iterative Gaussian processes, and identify that the computational costs are dominated by solving sequential batches of large positive-definite systems of linear equations. We then propose to amortise computations by reusing solutions of linear system solvers as initialisations in the next step, providing a $\textit{warm start}$. Finally, we discuss the necessary conditions and quantify the consequences of warm starts and demonstrate their effectiveness on regression tasks, where warm starts achieve the same results as the conventional procedure while providing up to a $16 \times$ average speed-up among datasets.
翻訳日:2024-05-29 17:40:27 公開日:2024-05-28
# 視覚言語モデルのフラストレーションと簡易なテスト時間適応

Frustratingly Easy Test-Time Adaptation of Vision-Language Models ( http://arxiv.org/abs/2405.18330v1 )

ライセンス: Link先を確認
Matteo Farina, Gianni Franchi, Giovanni Iacca, Massimiliano Mancini, Elisa Ricci, (参考訳) 視覚言語モデルは任意の意味圏をシームレスに区別するが、難しい例を提示しても一般化が不十分である。 このため, エピソードテスト時間適応(TTA)戦略は, 単一の未ラベル画像の存在下でVLMを適応させる強力な手法として最近登場した。 TTAに関する最近の文献は、オンラインのバックプロパゲーションに依存するMarginal Entropy Minimizationによる即時チューニングのパラダイムに支配されている。 本研究では,本手法の特性を理論的に検討し,驚くほど強いTTA法が休眠状態にあり,その中に隠れていることを明らかにする。 我々は、このアプローチをZERO (TTA with "ゼロ" temperature) と呼び、その設計は信じられないほど効果的でフラストレーションに富んでいる。 注目すべきは、ZEROは視覚エンコーダを経由する単一のバッチフォワードパスを必要とし、後方パスは不要である。 文献で確立された実験的なプロトコルに従って、我々のアプローチを徹底的に評価し、ZEROが従来のテストタイム・プロンプト・チューニングの約10倍高速で13倍メモリフレンドリーでありながら、最先端技術よりも好意的に優れているか、あるいは比較していることを示す。 その単純さと比較的無視可能な計算のおかげで、ZEROはこの分野での今後の研究の強力なベースラインとして機能することができる。 コードはhttps://github.com/FarinaMatteo/zero.comで公開されている。

Vision-Language Models seamlessly discriminate among arbitrary semantic categories, yet they still suffer from poor generalization when presented with challenging examples. For this reason, Episodic Test-Time Adaptation (TTA) strategies have recently emerged as powerful techniques to adapt VLMs in the presence of a single unlabeled image. The recent literature on TTA is dominated by the paradigm of prompt tuning by Marginal Entropy Minimization, which, relying on online backpropagation, inevitably slows down inference while increasing memory. In this work, we theoretically investigate the properties of this approach and unveil that a surprisingly strong TTA method lies dormant and hidden within it. We term this approach ZERO (TTA with "zero" temperature), whose design is both incredibly effective and frustratingly simple: augment N times, predict, retain the most confident predictions, and marginalize after setting the Softmax temperature to zero. Remarkably, ZERO requires a single batched forward pass through the vision encoder only and no backward passes. We thoroughly evaluate our approach following the experimental protocol established in the literature and show that ZERO largely surpasses or compares favorably w.r.t. the state-of-the-art while being almost 10x faster and 13x more memory-friendly than standard Test-Time Prompt Tuning. Thanks to its simplicity and comparatively negligible computation, ZERO can serve as a strong baseline for future work in this field. The code is available at https://github.com/FarinaMatteo/zero.
翻訳日:2024-05-29 17:40:27 公開日:2024-05-28
# SketchQLデモ - Sketchesによるゼロショットビデオモーメントクエリ

SketchQL Demonstration: Zero-shot Video Moment Querying with Sketches ( http://arxiv.org/abs/2405.18334v1 )

ライセンス: Link先を確認
Renzhi Wu, Pramod Chunduri, Dristi J Shah, Ashmitha Julius Aravind, Ali Payani, Xu Chu, Joy Arulraj, Kexin Rong, (参考訳) 本稿では、スケッチベースのクエリインタフェースでビデオモーメントを検索するビデオデータベース管理システム(VDBMS)であるSketchQLについて述べる。 このインターフェースでは、単純なマウスドラッグアンドドロップ操作でオブジェクトのトラジェクトリイベントを指定できる。 複雑なイベントを構成するために、単一のオブジェクトのトラジェクトリをビルディングブロックとして使用することができる。 トラジェクトリ類似性を符号化した事前トレーニングモデルを使用して、SketchQLは、ビデオ上で類似性検索を実行してゼロショットビデオモーメント検索を実現し、ビジュアルクエリに最も近いクリップを識別する。 このデモでは、SketchQLのグラフィックユーザインタフェースを導入し、その機能とインタラクションメカニズムを詳述する。 また,クエリ合成からリアルタイムシナリオを用いたビデオモーメント検索まで,SketchQLのエンドツーエンド使用例を示す。

In this paper, we will present SketchQL, a video database management system (VDBMS) for retrieving video moments with a sketch-based query interface. This novel interface allows users to specify object trajectory events with simple mouse drag-and-drop operations. Users can use trajectories of single objects as building blocks to compose complex events. Using a pre-trained model that encodes trajectory similarity, SketchQL achieves zero-shot video moments retrieval by performing similarity searches over the video to identify clips that are the most similar to the visual query. In this demonstration, we introduce the graphic user interface of SketchQL and detail its functionalities and interaction mechanisms. We also demonstrate the end-to-end usage of SketchQL from query composition to video moments retrieval using real-world scenarios.
翻訳日:2024-05-29 17:40:27 公開日:2024-05-28
# wiki-reviewストリームの解釈可能な分類

Interpretable classification of wiki-review streams ( http://arxiv.org/abs/2405.18335v1 )

ライセンス: Link先を確認
Silvia García Méndez, Fátima Leal, Benedita Malheiro, Juan Carlos Burguillo Rial, (参考訳) ウィキ記事は編集者の群集によって作成・維持され、レビューの連続ストリームが作成される。 レビューは追加やリバージョン、あるいはその両方という形で行うことができる。 このクラウドソーシングモデルは、レビューもエディタも自動的にスクリーニングされ、パージされないため、操作に晒される。 記事の破壊や損害から保護するために、レビューのストリームを抽出してレビューやプロフィールエディタをリアルタイムで分類することができる。 この研究の目標は、どのレビューを振り返るかを予想し、説明することである。 このようにして、編集者はなぜ編集が元に戻されるのかを知らせる。 提案手法はストリームベース処理を用い,各イベントのプロファイリングと分類モデルを更新する。 プロファイリングは自然言語処理を利用したサイドおよびコンテントベースの機能を使用し、エディタプロファイルはレビューに基づいて漸進的に更新される。 提案手法は自己説明可能な分類アルゴリズムに依存しているため,レビューが逆転あるいは逆転に分類された理由を理解することができる。 さらに、この研究はクラスバランスのための合成データを生成するアルゴリズムに貢献し、最終分類をより公平にする。 提案手法はWikivoyageの実際のデータセットを用いてテストされ, 上記の合成データ生成によってバランスが取れた。 その結果,すべての評価指標(精度,精度,リコール,F測定値)に対して約90%の値を得た。

Wiki articles are created and maintained by a crowd of editors, producing a continuous stream of reviews. Reviews can take the form of additions, reverts, or both. This crowdsourcing model is exposed to manipulation since neither reviews nor editors are automatically screened and purged. To protect articles against vandalism or damage, the stream of reviews can be mined to classify reviews and profile editors in real-time. The goal of this work is to anticipate and explain which reviews to revert. This way, editors are informed why their edits will be reverted. The proposed method employs stream-based processing, updating the profiling and classification models on each incoming event. The profiling uses side and content-based features employing Natural Language Processing, and editor profiles are incrementally updated based on their reviews. Since the proposed method relies on self-explainable classification algorithms, it is possible to understand why a review has been classified as a revert or a non-revert. In addition, this work contributes an algorithm for generating synthetic data for class balancing, making the final classification fairer. The proposed online method was tested with a real data set from Wikivoyage, which was balanced through the aforementioned synthetic data generation. The results attained near-90 % values for all evaluation metrics (accuracy, precision, recall, and F-measure).
翻訳日:2024-05-29 17:40:27 公開日:2024-05-28
# 偽ニュースと偽ニュースを規定する特徴 : 分類学と定義のレビュー

What characteristics define disinformation and fake news?: review of taxonomies and definitions ( http://arxiv.org/abs/2405.18339v1 )

ライセンス: Link先を確認
Ergon Cugler de Moraes Silva, Jose Carlos Vaz, (参考訳) 偽情報と偽ニュースを定義する特徴は何か? この研究課題に対処するために、この技術ノートは、偽情報と偽ニュースを包括的に分析し、46の定義を合成し、基本的特徴に対処する4つのキーポイントを強調する。 Prisma 2020法を採用すると、Booleanオペレーターと5つの検索セットがポルトガル語と英語の両方で選択され、4つのデータベースにまたがって適用され、237のレビュー記事が作成された。 厳密な分析の結果、関連記事が特定され、含められ、重複やアクセス不能な文書は除外された。 偽情報は完全にまたは部分的に偽情報であり、誤解を招く目的で送信者が作成し、現実を操作するためにデザインされた機会的コンテンツであり、解釈において受信者の個々の特性と、それらが埋め込まれた文脈的要因によって増幅される。 この技術ノートは、文脈次元を含む偽情報現象の理解に寄与し、分析の基本的な要素として得ることを目的としている。 ) Sender, II。 ) 内容,III。 ) 受取人, 受取人, 受取人。 環境)。

What characteristics define disinformation and fake news? To address this research question, this Technical Note provides a comprehensive analysis of disinformation and fake news, synthesizing 46 definitions and highlighting four key points addressing their fundamental characteristics. Adopting the Prisma 2020 method, five search sets with the Boolean operator AND were selected in both Portuguese and English, which were applied across four databases, resulting in 237 reviewed articles. Following a meticulous analysis, relevant articles were identified and included, while duplicates and inaccessible documents were excluded. It points to disinformation as information that is totally or partially false, crafted by a sender with the aim of misleading, with opportunistic content designed to manipulate reality, being amplified by individual characteristics of the receiver in their interpretation and by contextual factors in which they are embedded. This Technical Note seeks to contribute to an understanding of the phenomenon of disinformation that includes the contextual dimension, obtaining as fundamental elements of analysis: I.) Sender; II.) Content; III.) Receiver; and IV.) Environment.
翻訳日:2024-05-29 17:40:27 公開日:2024-05-28
# RealTimeTransport: 強い結合状態における量子トランスポートシミュレーションのためのオープンソースのC++ライブラリ

RealTimeTransport: An open-source C++ library for quantum transport simulations in the strong coupling regime ( http://arxiv.org/abs/2405.18340v1 )

ライセンス: Link先を確認
Konstantin Nestmann, Martin Leijnse, Maarten R. Wegewijs, (参考訳) 強い系-貯水池結合状態における量子輸送の記述は、正確な分析のために専門的なツールを必要とする重要な理論的および計算的な課題を生じさせる。 RealTimeTransportは、新しいオープンソースのC++ライブラリで、金属貯水池に接続された汎用量子システムのための定常的および過渡的なトランスポートオブザーバブルの計算を可能にする。 中島-Zwanzigメモリカーネルを動的かつリアルタイムに計算し、ベアシステム-貯留層結合における従来の拡張を超えている。 現在、いくつかの方法が利用可能である。 一 従来の理論を制限した低温破壊を避けるための、先行及び次から次への順序における正規化摂動理論。 (II) このよく知られた参照解から、メモリカーネルの2ループおよび3ループの自己整合型再正規化群変換を実装する。 これにより、コツネリングのコンドエンハンスメントのような多くの体共鳴の存在下でも、定量的な予測が洗練される。 本稿では,RealTimeTransportのアーキテクチャと現在実装されている手法の実証について概説する。 特に、シリアルダブル量子ドットによる定常輸送を分析し、ワン電子トンネル法(SET)、コツネリング支援型SET(CO-SET)、およびゲートバイアス安定性図全体を通して非弾性コツネリング共鳴の完全な時間発展を示す。 実装された手法の適用範囲を議論し、他の先進的なアプローチと比較する。

The description of quantum transport in the strong system-reservoir coupling regime poses a significant theoretical and computational challenge that demands specialized tools for accurate analysis. RealTimeTransport is a new open-source C++ library that enables the computation of both stationary and transient transport observables for generic quantum systems connected to metallic reservoirs. It computes the Nakajima-Zwanzig memory kernels for both dynamics and transport in real-time going beyond traditional expansions in the bare system-reservoir couplings. Currently, several methods are available: (i) A renormalized perturbation theory in leading and next-to-leading order which avoids the low-temperature breakdown that limits the traditional theory. (ii) Starting from this well-behaved reference solution a 2- and 3-loop self-consistent renormalization-group transformation of the memory kernels is implemented. This allows refined quantitative predictions even in the presence of many body resonances, such as the Kondo enhancement of cotunneling. This paper provides an overview of the theory, the architecture of RealTimeTransport and practical demonstrations of the currently implemented methods. In particular, we analyze the stationary transport through a serial double quantum dot and showcase for the $T=0$ interacting Anderson model the complete time-development of single-electron tunneling (SET), cotunneling-assisted SET (CO-SET) and inelastic cotunneling resonances throughout the entire gate-bias stability diagram. We discuss the range of applicability of the implemented methods and benchmark them against other advanced approaches.
翻訳日:2024-05-29 17:40:27 公開日:2024-05-28
# LLMの戦い:会話型QA課題の比較研究

The Battle of LLMs: A Comparative Study in Conversational QA Tasks ( http://arxiv.org/abs/2405.18344v1 )

ライセンス: Link先を確認
Aryan Rangapur, Aman Rangapur, (参考訳) 大規模言語モデルは、様々なタスクにおける印象的なパフォーマンスに対して、かなりの関心を集めている。 この領域内では、OpenAIが開発したChatGPTとGPT-4、Googleが開発したGeminiが、アーリーアダプターの間で特に人気を博している。 さらに、Mistral AIによるMixtralと、ArthropicによるClaudeが新たにリリースされ、高度な言語モデルの展望をさらに広げている。 これらのモデルは、カスタマーサービス、教育、医療、ファイナンスにまたがるアプリケーションによって破壊的な技術と見なされている。 最近ではMistralが登場し、クリエイティブなコンテンツを生成するユニークな能力でユーザーを魅了している。 これらのユーザの視点を理解することは、さまざまな領域において、潜在的な強み、弱点、そしてこれらのテクノロジの全体的な成功または失敗に関する貴重な洞察を提供するため、非常に重要です。 この研究は、ChatGPT、GPT-4、Gemini、Mixtral、Claudeが異なる会話型QAコーパスで生成した応答を詳しく調べる。 評価スコアは慎重に計算され、その後、これらのモデル全体の性能を確認するために比較された。 我々の研究では、これらのモデルが質問に対する不正確な回答を提供し、エラーに陥る可能性のある潜在的な領域についての洞察を提供する事例を指摘しました。 基本的に、本研究は、これらの最先端言語モデルの総合的な比較と評価を提供し、その能力に光を当てつつ、改善の可能性を強調している。

Large language models have gained considerable interest for their impressive performance on various tasks. Within this domain, ChatGPT and GPT-4, developed by OpenAI, and the Gemini, developed by Google, have emerged as particularly popular among early adopters. Additionally, Mixtral by Mistral AI and Claude by Anthropic are newly released, further expanding the landscape of advanced language models. These models are viewed as disruptive technologies with applications spanning customer service, education, healthcare, and finance. More recently, Mistral has entered the scene, captivating users with its unique ability to generate creative content. Understanding the perspectives of these users is crucial, as they can offer valuable insights into the potential strengths, weaknesses, and overall success or failure of these technologies in various domains. This research delves into the responses generated by ChatGPT, GPT-4, Gemini, Mixtral and Claude across different Conversational QA corpora. Evaluation scores were meticulously computed and subsequently compared to ascertain the overall performance of these models. Our study pinpointed instances where these models provided inaccurate answers to questions, offering insights into potential areas where they might be susceptible to errors. In essence, this research provides a comprehensive comparison and evaluation of these state of-the-art language models, shedding light on their capabilities while also highlighting potential areas for improvement
翻訳日:2024-05-29 17:40:27 公開日:2024-05-28
# インテリジェントなクリニカルドキュメンテーション:患者中心のクリニカルノート生成のための生成AIのハーネス

Intelligent Clinical Documentation: Harnessing Generative AI for Patient-Centric Clinical Note Generation ( http://arxiv.org/abs/2405.18346v1 )

ライセンス: Link先を確認
Anjanava Biswas, Wrick Talukdar, (参考訳) 包括的臨床文書は効果的な医療提供に不可欠であるが、医療専門家にとって重大な負担となり、燃え尽き、医療ミスの増加、患者の安全を損なう。 本稿では,SOAP (Subjective, Objective, Assessment, Plan) と BIRP (Behavior, Intervention, Response, Plan) の文書作成を中心に,臨床ドキュメントプロセスの合理化を目的とした生成AI(Artificial Intelligence) の可能性を検討する。 本稿では,NLP(Natural Language Processing)とASR(Automatic Speech Recognition, 自動音声認識)技術の患者と臨床の相互作用の転写への応用を事例として,大規模言語モデル(LLMs)を用いた臨床ノート作成のための高度なプロンプト技術と組み合わせて示す。 この研究は、時間節約、ドキュメント品質の改善、患者中心のケアの改善など、このアプローチの利点を強調している。 さらに、患者の機密性の維持やモデルバイアスへの対処といった倫理的配慮についても議論し、医療環境における生成AIの責任ある展開の必要性を強調する。 この結果は、ジェネレーティブAIは、臨床ドキュメントの実践に革命をもたらす可能性があり、管理上の負担を軽減し、医療専門家が患者の直接のケアに集中できるようにする可能性を示唆している。

Comprehensive clinical documentation is crucial for effective healthcare delivery, yet it poses a significant burden on healthcare professionals, leading to burnout, increased medical errors, and compromised patient safety. This paper explores the potential of generative AI (Artificial Intelligence) to streamline the clinical documentation process, specifically focusing on generating SOAP (Subjective, Objective, Assessment, Plan) and BIRP (Behavior, Intervention, Response, Plan) notes. We present a case study demonstrating the application of natural language processing (NLP) and automatic speech recognition (ASR) technologies to transcribe patient-clinician interactions, coupled with advanced prompting techniques to generate draft clinical notes using large language models (LLMs). The study highlights the benefits of this approach, including time savings, improved documentation quality, and enhanced patient-centered care. Additionally, we discuss ethical considerations, such as maintaining patient confidentiality and addressing model biases, underscoring the need for responsible deployment of generative AI in healthcare settings. The findings suggest that generative AI has the potential to revolutionize clinical documentation practices, alleviating administrative burdens and enabling healthcare professionals to focus more on direct patient care.
翻訳日:2024-05-29 17:40:27 公開日:2024-05-28
# データセットの成長

Dataset Growth ( http://arxiv.org/abs/2405.18347v1 )

ライセンス: Link先を確認
Ziheng Qin, Zhaopan Xu, Yukun Zhou, Zangwei Zheng, Zebang Cheng, Hao Tang, Lei Shang, Baigui Sun, Xiaojiang Peng, Radu Timofte, Hongxun Yao, Kai Wang, Yang You, (参考訳) ディープラーニングは、利用可能なデータの豊富さから恩恵を受ける。 一方、データスケールの増大に効率よく対処することが課題となっている。 公開されているデータは様々な品質の異なるソースから提供されており、今日のデータスケールによって、ノイズや冗長性に対して手動でクリーニングを行うことは現実的ではない。 収集したデータのクリーニング/選択には、既存の技術がある。 しかし、これらの手法は主に、クリーンネスと冗長性の問題の1つをターゲットにしたオフライン設定のために提案されている。 実際には、データは両方の問題で指数関数的に増加しています。 これにより、データキュレーションの繰り返しが、最適以下の効率で行われます。 この課題に対処するために、データクリーニングと選択のための効率的なオンラインアルゴリズムであるInfoGrowthを提案する。 InfoGrowthは、効率的でスケーラブルな設計で、シングルモーダルタスクとマルチモーダルタスクの両方のデータ品質/効率を改善することができる。 そのフレームワークは現実世界のデータエンジンに実用的だ。

Deep learning benefits from the growing abundance of available data. Meanwhile, efficiently dealing with the growing data scale has become a challenge. Data publicly available are from different sources with various qualities, and it is impractical to do manual cleaning against noise and redundancy given today's data scale. There are existing techniques for cleaning/selecting the collected data. However, these methods are mainly proposed for offline settings that target one of the cleanness and redundancy problems. In practice, data are growing exponentially with both problems. This leads to repeated data curation with sub-optimal efficiency. To tackle this challenge, we propose InfoGrowth, an efficient online algorithm for data cleaning and selection, resulting in a growing dataset that keeps up to date with awareness of cleanliness and diversity. InfoGrowth can improve data quality/efficiency on both single-modal and multi-modal tasks, with an efficient and scalable design. Its framework makes it practical for real-world data engines.
翻訳日:2024-05-29 17:40:27 公開日:2024-05-28
# 自動メトリクスは高品質翻訳を評価できるか?

Can Automatic Metrics Assess High-Quality Translations? ( http://arxiv.org/abs/2405.18348v1 )

ライセンス: Link先を確認
Sweta Agrawal, António Farinhas, Ricardo Rei, André F. T. Martins, (参考訳) 翻訳品質を評価するための自動メトリクスは、一般的に、人間の評価とどのように相関しているかを測定することによって検証される。 しかし、相関法は、良いソースと悪いソースの翻訳ペアを区別するメトリクスの能力のみを捉え、同じソースに対して別の翻訳を区別する信頼性を見越す傾向にある。 本稿では,現行のメトリクスが翻訳品質の微妙な違いに敏感であることを示すことによって,これが事実であることを確認した。 この効果は、品質が高く、代替品間のばらつきが低い場合に最も顕著である。 この結果から,品質評価よりも精度のバイナリチェックが優先される現実的な意思決定シナリオにおいて重要な問題である,高品質な正しい翻訳の検出に移行した。 MQMフレームワークを金の標準として使用することにより、現在のメトリクスが人間によってマークされた誤りのない翻訳を識別する能力を体系的にストレステストする。 以上の結果から,現在の指標は翻訳品質を過小評価することが多く,自動評価法の改善の余地が大きかったことが示唆された。

Automatic metrics for evaluating translation quality are typically validated by measuring how well they correlate with human assessments. However, correlation methods tend to capture only the ability of metrics to differentiate between good and bad source-translation pairs, overlooking their reliability in distinguishing alternative translations for the same source. In this paper, we confirm that this is indeed the case by showing that current metrics are insensitive to nuanced differences in translation quality. This effect is most pronounced when the quality is high and the variance among alternatives is low. Given this finding, we shift towards detecting high-quality correct translations, an important problem in practical decision-making scenarios where a binary check of correctness is prioritized over a nuanced evaluation of quality. Using the MQM framework as the gold standard, we systematically stress-test the ability of current metrics to identify translations with no errors as marked by humans. Our findings reveal that current metrics often over or underestimate translation quality, indicating significant room for improvement in automatic evaluation methods.
翻訳日:2024-05-29 17:40:27 公開日:2024-05-28
# 英語テキスト自動拡張システム

A System for Automatic English Text Expansion ( http://arxiv.org/abs/2405.18350v1 )

ライセンス: Link先を確認
Silvia García Méndez, Milagros Fernández Gavilanes, Enrique Costa Montenegro, Jonathan Juncal Martínez, Francisco Javier González Castaño, Ehud Reiter, (参考訳) 本稿では,言語規則と統計的アプローチを組み合わせた自然言語生成(NLG)を行う,英語文を生成する自動テキスト拡張システムを提案する。 ここで「自動」とは、システムは最小限の単語集合から一貫性と正しい文を生成することができることを意味する。 当初から、この設計はモジュール化されており、他の言語にも適応できる。 この適応性はその最大の利点の1つだ。 英語では、高度に正確なaLexiEレキシコンを作成した。 我々は,NLG分野の一般的なコーパスを用いて,直接(コーパス文の再生)と手動(アノテーションによる)の両概念実証において,得られたNLGライブラリを評価した。 副次的なスペイン語-英語並列コーパスを用いて,英語とスペイン語のテキスト展開の質を比較して第2の分析を行った。 このシステムは、レポートやニュース生成といった他のドメインにも適用することができる。

We present an automatic text expansion system to generate English sentences, which performs automatic Natural Language Generation (NLG) by combining linguistic rules with statistical approaches. Here, "automatic" means that the system can generate coherent and correct sentences from a minimum set of words. From its inception, the design is modular and adaptable to other languages. This adaptability is one of its greatest advantages. For English, we have created the highly precise aLexiE lexicon with wide coverage, which represents a contribution on its own. We have evaluated the resulting NLG library in an Augmentative and Alternative Communication (AAC) proof of concept, both directly (by regenerating corpus sentences) and manually (from annotations) using a popular corpus in the NLG field. We performed a second analysis by comparing the quality of text expansion in English to Spanish, using an ad-hoc Spanish-English parallel corpus. The system might also be applied to other domains such as report and news generation.
翻訳日:2024-05-29 17:40:27 公開日:2024-05-28
# 電波銀河分類のためのベイズ深層学習の評価

Evaluating Bayesian deep learning for radio galaxy classification ( http://arxiv.org/abs/2405.18351v1 )

ライセンス: Link先を確認
Devina Mohan, Anna M. M. Scaife, (参考訳) 電波天文学のコミュニティは、次世代の電波観測所から期待される膨大なデータ量を扱うために、急速に深層学習技術を採用している。 ベイズニューラルネットワーク(BNN)は、そのような深層学習モデルによる予測の不確かさをモデル化する原則的な方法を提供し、その出力に対してよく校正された不確実性推定を抽出する上で重要な役割を果たす。 本研究では, 電波銀河分類問題に対する予測性能, 不確かさ校正, 分布シフト検出の2つの基準に対して, 異なるBNNの性能を評価する。

The radio astronomy community is rapidly adopting deep learning techniques to deal with the huge data volumes expected from the next generation of radio observatories. Bayesian neural networks (BNNs) provide a principled way to model uncertainty in the predictions made by such deep learning models and will play an important role in extracting well-calibrated uncertainty estimates on their outputs. In this work, we evaluate the performance of different BNNs against the following criteria: predictive performance, uncertainty calibration and distribution-shift detection for the radio galaxy classification problem.
翻訳日:2024-05-29 17:40:27 公開日:2024-05-28
# 屋内環境における緊急避難場所最適化のための進化的アルゴリズム

Evolutionary Algorithms for Optimizing Emergency Exit Placement in Indoor Environments ( http://arxiv.org/abs/2405.18352v1 )

ライセンス: Link先を確認
Carlos Cotta, José E. Gallardo, (参考訳) 本研究は, 屋内環境において, 急速かつ秩序ある避難を容易にするために, 避難口の配置を最適にすることの課題について述べる。 セルラーオートマトンモデルを用いて歩行者の行動のシミュレーションを行い、環境、歩行者自身、歩行者間の相互作用などの要因を考慮に入れた。 避難がどの程度成功したか、満足できるかを決定するための計量が提案されている。 その後、最適化問題を解くために、2つのメタヒューリスティックアルゴリズム、すなわち反復グリーディヒューリスティックと進化的アルゴリズム(EA)が提案される。 比較分析により、提案されたEAは、異なるシナリオに対して効果的なソリューションを見つけることができ、島ベースのバージョンは、ソリューションの品質の観点から他の2つのアルゴリズムよりも優れていることが示された。

The problem of finding the optimal placement of emergency exits in an indoor environment to facilitate the rapid and orderly evacuation of crowds is addressed in this work. A cellular-automaton model is used to simulate the behavior of pedestrians in such scenarios, taking into account factors such as the environment, the pedestrians themselves, and the interactions among them. A metric is proposed to determine how successful or satisfactory an evacuation was. Subsequently, two metaheuristic algorithms, namely an iterated greedy heuristic and an evolutionary algorithm (EA) are proposed to solve the optimization problem. A comparative analysis shows that the proposed EA is able to find effective solutions for different scenarios, and that an island-based version of it outperforms the other two algorithms in terms of solution quality.
翻訳日:2024-05-29 17:40:27 公開日:2024-05-28
# 無限次元非線形拡散ブリッジのシミュレーション

Simulating infinite-dimensional nonlinear diffusion bridges ( http://arxiv.org/abs/2405.18353v1 )

ライセンス: Link先を確認
Gefan Yang, Elizabeth Louise Baker, Michael L. Severinsen, Christy Anna Hipsley, Stefan Sommer, (参考訳) 拡散ブリッジは、有限時間内に特定の状態に達することを条件とする拡散過程の一種である。 ベイズ推論、金融数学、制御理論、形状解析などの分野に広く応用されている。 しかし, 自然データに対する拡散ブリッジのシミュレーションは, ドリフト項の難易度とデータの連続表現の両面から困難である。 有限次元拡散ブリッジをシミュレートするいくつかの方法が利用可能であるが、無限次元の場合も未解決のままである。 本稿では,演算子学習とスコアマッチング技術を組み合わせることで,無限次元ブリッジのスコアマッチングへの直接的なアプローチを可能にする。 離散化不変量となるようなスコアを構築するが、これは空間的連続過程を基礎として自然である。 クローズドフォーム解を用いた合成例から実世界の生体形状データの確率論的非線形進化まで,様々な実験を行った。

The diffusion bridge is a type of diffusion process that conditions on hitting a specific state within a finite time period. It has broad applications in fields such as Bayesian inference, financial mathematics, control theory, and shape analysis. However, simulating the diffusion bridge for natural data can be challenging due to both the intractability of the drift term and continuous representations of the data. Although several methods are available to simulate finite-dimensional diffusion bridges, infinite-dimensional cases remain unresolved. In the paper, we present a solution to this problem by merging score-matching techniques with operator learning, enabling a direct approach to score-matching for the infinite-dimensional bridge. We construct the score to be discretization invariant, which is natural given the underlying spatially continuous process. We conduct a series of experiments, ranging from synthetic examples with closed-form solutions to the stochastic nonlinear evolution of real-world biological shape data, and our method demonstrates high efficacy, particularly due to its ability to adapt to any resolution without extra training.
翻訳日:2024-05-29 17:40:27 公開日:2024-05-28
# 地上・地下施設におけるトランスモン量子ビットの放射効果評価

Evaluating radiation impact on transmon qubits in above and underground facilities ( http://arxiv.org/abs/2405.18355v1 )

ライセンス: Link先を確認
Francesco De Dominicis, Tanay Roy, Ambra Mariani, Mustafa Bal, Nicola Casali, Ivan Colantoni, Francesco Crisa, Angelo Cruciani, Fernando Ferroni, Dounia L Helis, Lorenzo Pagnanini, Valerio Pettinacci, Roman M Pilipenko, Stefano Pirro, Andrei Puiu, Alexander Romanenko, David v Zanten, Shaojiang Zhu, Anna Grassellino, Laura Cardani, (参考訳) 超伝導量子ビットは、宇宙線や周囲の放射能によって引き起こされる急激なエネルギー蓄積に敏感である。 これまでの研究は、宇宙線による時間と距離による相関効果の解明に重点を置いてきた。 本研究では,Fermilab SQMS地上施設および深部地下グラン・サッソ研究所(INFN-LNGS)で最初に測定されたトランスモン量子ビットの応答を直接比較した。 地上および地下施設で約80マイクロ秒の平均量子ビット寿命T$_1$を観測した。 次に, 高速減衰検出プロトコルを適用し, 高コヒーレンス量子ビットの地上特性と比較し, 放射と固有雑音によるトリガ事象の時間構造, 感度, 相対速度について検討した。 変動活動のガンマ源を用いて、最小背景放射の環境において、異なるレベルの放射線に対する量子ビットの応答を校正する。 その結果、クォービットは強いガンマ源に反応し、粒子の衝突を検出することが可能であることが示唆された。 しかし,これらのサファイアおよびニオブ系トランスモン量子ビットに対する放射誘起現象の差は観測されていない。 これらの事象の大部分は放射関係ではなく、現代のトランモン量子ビットにおける単一量子ビット誤差をはるかに支配している他のノイズ源によるものであると結論付けている。

Superconducting qubits can be sensitive to abrupt energy deposits caused by cosmic rays and ambient radioactivity. Previous studies have focused on understanding possible correlated effects over time and distance due to cosmic rays. In this study, for the first time, we directly compare the response of a transmon qubit measured initially at the Fermilab SQMS above-ground facilities and then at the deep underground Gran Sasso Laboratory (INFN-LNGS, Italy). We observe same average qubit lifetime T$_1$ of roughly 80 microseconds at above and underground facilities. We then apply a fast decay detection protocol and investigate the time structure, sensitivity and relative rates of triggered events due to radiation versus intrinsic noise, comparing above and underground performance of several high-coherence qubits. Using gamma sources of variable activity we calibrate the response of the qubit to different levels of radiation in an environment with minimal background radiation. Results indicate that qubits respond to a strong gamma source and it is possible to detect particle impacts. However, when comparing above and underground results, we do not observe a difference in radiation induced-like events for these sapphire and niobium-based transmon qubits. We conclude that the majority of these events are not radiation related and to be attributed to other noise sources which by far dominate single qubit errors in modern transmon qubits.
翻訳日:2024-05-29 17:30:42 公開日:2024-05-28
# 腹部CTによる臓器切開・腫瘍検出のための普遍的および拡張的言語ビジョンモデル

Universal and Extensible Language-Vision Models for Organ Segmentation and Tumor Detection from Abdominal Computed Tomography ( http://arxiv.org/abs/2405.18356v1 )

ライセンス: Link先を確認
Jie Liu, Yixiao Zhang, Kang Wang, Mehmet Can Yavuz, Xiaoxi Chen, Yixuan Yuan, Haoliang Li, Yang Yang, Alan Yuille, Yucheng Tang, Zongwei Zhou, (参考訳) 臓器のセグメンテーションと腫瘍検出のための人工知能(AI)の進歩は、詳細なvoxelアノテーションを備えたCTデータセットの増大によって促進される。 しかしながら、これらのAIモデルは、ワンホットエンコーディング、アーキテクチャ設計、学習スキームの制限のために、部分的に注釈付きデータセットの柔軟性と新しいクラスの拡張性に苦慮することが多い。 これらの制約を克服するために、単一のモデルであるUniversal Modelが複数の公開データセットに対処し、新しいクラス(臓器や腫瘍など)に適応できるようにする、普遍的拡張可能なフレームワークを提案する。 まず,大規模言語モデルからの言語埋め込みを利用して,ワンホット符号化と比較して意味的エンコーディングを充実させる新しい言語駆動パラメータ生成手法を提案する。 第二に、従来の出力層は軽量でクラス固有のヘッドに置き換えられ、ユニバーサルモデルでは25の臓器と6種類の腫瘍を同時に分割し、新しいクラスの追加を容易にする。 私たちは14の公開データセットから集められた3,410のCTボリュームでユニバーサルモデルをトレーニングし、4つの外部データセットから6,173のCTボリュームでテストします。 Universal Modelは、Medical Segmentation Decathlon(MSD)公開リーダボードで6つのCTタスクで1位を獲得し、Beyond The Cranial Vault(BTCV)データセットのパフォーマンスをリードする。 要約すると、Universal Modelは驚くべき計算効率(他のデータセット固有のモデルより6倍速い)を示し、異なる病院にまたがる強力な一般化を示し、多くの下流タスクにうまく移行し、さらに重要なのは、以前に学んだクラスの破滅的な忘れを緩和しながら、新しいクラスへの拡張を容易にすることである。 コード、モデル、データセットはhttps://github.com/ljwztc/CLIP-Driven-Universal-Modelで入手できる。

The advancement of artificial intelligence (AI) for organ segmentation and tumor detection is propelled by the growing availability of computed tomography (CT) datasets with detailed, per-voxel annotations. However, these AI models often struggle with flexibility for partially annotated datasets and extensibility for new classes due to limitations in the one-hot encoding, architectural design, and learning scheme. To overcome these limitations, we propose a universal, extensible framework enabling a single model, termed Universal Model, to deal with multiple public datasets and adapt to new classes (e.g., organs/tumors). Firstly, we introduce a novel language-driven parameter generator that leverages language embeddings from large language models, enriching semantic encoding compared with one-hot encoding. Secondly, the conventional output layers are replaced with lightweight, class-specific heads, allowing Universal Model to simultaneously segment 25 organs and six types of tumors and ease the addition of new classes. We train our Universal Model on 3,410 CT volumes assembled from 14 publicly available datasets and then test it on 6,173 CT volumes from four external datasets. Universal Model achieves first place on six CT tasks in the Medical Segmentation Decathlon (MSD) public leaderboard and leading performance on the Beyond The Cranial Vault (BTCV) dataset. In summary, Universal Model exhibits remarkable computational efficiency (6x faster than other dataset-specific models), demonstrates strong generalization across different hospitals, transfers well to numerous downstream tasks, and more importantly, facilitates the extensibility to new classes while alleviating the catastrophic forgetting of previously learned classes. Codes, models, and datasets are available at https://github.com/ljwztc/CLIP-Driven-Universal-Model
翻訳日:2024-05-29 17:30:42 公開日:2024-05-28
# シンボリック・チェーン・オブ・サートによる忠実な論理的推論

Faithful Logical Reasoning via Symbolic Chain-of-Thought ( http://arxiv.org/abs/2405.18357v1 )

ライセンス: Link先を確認
Jundong Xu, Hao Fei, Liangming Pan, Qian Liu, Mong-Li Lee, Wynne Hsu, (参考訳) 最近のChain-of-Thought(CoT)技術は、大きな言語モデル(LLM)の推論能力を心の理論で強化するが、それでも象徴的な表現や厳格な推論規則に大きく依存する論理的推論を扱うのに苦労するかもしれない。 LLMの論理的推論能力を強化するために,シンボル表現と論理規則をCoTプロンプトと統合した完全LLMベースのフレームワークであるSymbCoTを提案する。 技術的には、LLM、SymbCoT上に構築する 1)まず自然言語の文脈を記号形式に変換し、次に 2) 記号論理規則で問題を解決するためのステップバイステッププランを導出する。 3) 続いて翻訳及び推論連鎖をチェックする検証者。 First-Order LogicとConstraint Optimizationのシンボル式を使った5つの標準データセットの徹底的な評価により、SymbCoTはCoTメソッドよりも大幅に改善されている一方で、現在の最先端のパフォーマンスを更新している。 さらに、我々のシステムがより忠実で、柔軟で、説明可能な論理的推論で進んでいることを実証する。 我々の知る限りでは、LLMの論理的推論のために記号表現と規則をCoTに結合するのはこれが初めてである。 コードはhttps://github.com/Aiden0526/SymbCoT.comで公開されている。

While the recent Chain-of-Thought (CoT) technique enhances the reasoning ability of large language models (LLMs) with the theory of mind, it might still struggle in handling logical reasoning that relies much on symbolic expressions and rigid deducing rules. To strengthen the logical reasoning capability of LLMs, we propose a novel Symbolic Chain-of-Thought, namely SymbCoT, a fully LLM-based framework that integrates symbolic expressions and logic rules with CoT prompting. Technically, building upon an LLM, SymbCoT 1) first translates the natural language context into the symbolic format, and then 2) derives a step-by-step plan to solve the problem with symbolic logical rules, 3) followed by a verifier to check the translation and reasoning chain. Via thorough evaluations on 5 standard datasets with both First-Order Logic and Constraint Optimization symbolic expressions, SymbCoT shows striking improvements over the CoT method consistently, meanwhile refreshing the current state-of-the-art performances. We further demonstrate that our system advances in more faithful, flexible, and explainable logical reasoning. To our knowledge, this is the first to combine symbolic expressions and rules into CoT for logical reasoning with LLMs. Code is open at https://github.com/Aiden0526/SymbCoT.
翻訳日:2024-05-29 17:30:42 公開日:2024-05-28
# MMCTAgent: 複雑なビジュアル推論のためのマルチモーダルクリティカル思考エージェントフレームワーク

MMCTAgent: Multi-modal Critical Thinking Agent Framework for Complex Visual Reasoning ( http://arxiv.org/abs/2405.18358v1 )

ライセンス: Link先を確認
Somnath Kumar, Yash Gadhia, Tanuja Ganu, Akshay Nambi, (参考訳) MLLM(Multi-modal Large Language Models)の最近の進歩は、視覚と言語を組み合わせたタスクにおいて、その性能を著しく向上させてきた。 しかし、課題は、詳細なマルチモーダル理解、複雑なタスクの理解、多モーダル情報の推論に継続する。 本稿では,MMCTAgentについて紹介する。MMCTAgentは,複雑な視覚的推論タスクにおいて,現在のMLLMの本質的制約に対処するために設計された,マルチモーダルな批判的思考エージェントフレームワークである。 人間の認知プロセスや批判的思考にインスパイアされたMCCTAgentは、複数のモーダル情報を反復的に分析し、クエリを分解し、戦略を計画し、その推論を動的に進化させる。 さらに、MCCTAgentは、視覚に基づく批判を定義し、タスク固有の評価基準を特定し、意思決定能力を高めるという新しいアプローチを通じて、最終回答の検証や自己回帰などの批判的思考要素を取り入れている。 MMCTAgentは、様々な画像およびビデオ理解ベンチマークの厳密な評価を通じて、基礎的MLLMと他のツール拡張パイプラインよりも優れていることを示した。

Recent advancements in Multi-modal Large Language Models (MLLMs) have significantly improved their performance in tasks combining vision and language. However, challenges persist in detailed multi-modal understanding, comprehension of complex tasks, and reasoning over multi-modal information. This paper introduces MMCTAgent, a novel multi-modal critical thinking agent framework designed to address the inherent limitations of current MLLMs in complex visual reasoning tasks. Inspired by human cognitive processes and critical thinking, MMCTAgent iteratively analyzes multi-modal information, decomposes queries, plans strategies, and dynamically evolves its reasoning. Additionally, MMCTAgent incorporates critical thinking elements such as verification of final answers and self-reflection through a novel approach that defines a vision-based critic and identifies task-specific evaluation criteria, thereby enhancing its decision-making abilities. Through rigorous evaluations across various image and video understanding benchmarks, we demonstrate that MMCTAgent (with and without the critic) outperforms both foundational MLLMs and other tool-augmented pipelines.
翻訳日:2024-05-29 17:30:42 公開日:2024-05-28
# ギャップのブリッジ: LLMにおける多言語性能向上のための動的学習戦略

Bridging the Gap: Dynamic Learning Strategies for Improving Multilingual Performance in LLMs ( http://arxiv.org/abs/2405.18359v1 )

ライセンス: Link先を確認
Somnath Kumar, Vaibhav Balloli, Mercy Ranjit, Kabir Ahuja, Tanuja Ganu, Sunayana Sitaram, Kalika Bali, Akshay Nambi, (参考訳) 大規模言語モデル(LLM)は、世界中の多くのドメインを変換する最前線にある。 しかしながら、その傾向と有効性は、非ラテン文字や低リソース言語に限られている。 本稿では,LLMの多言語的性能向上を,広範囲の訓練や微調整を伴わずに行うことの必須課題に対処する。 一般的な質問応答(QA)データセットを用いた多言語言語の体系的調査と評価を通じて,多言語ランドスケープにおけるLLMの真のポテンシャルを解き放つ新しい手法を提案する。 提案手法は,多言語習熟度を大幅に向上させる3つの重要な戦略を包含する。 まず,ポリグロットLLMに適したプロンプトを巧みに最適化することで,その潜在能力を解き明かし,言語間での大幅な性能向上を実現した。 第2に,LLM Retrieval Augmented Generation (RAG) と多言語埋め込みを併用し,多言語タスク性能の向上を実現するハイブリッド手法を提案する。 最後に、実行時に最適なプロンプト戦略、LLMモデル、クエリごとの埋め込みモデルを動的に選択する新しい学習手法を提案する。 この動的適応は言語間のLLMの有効性を最大化し、最高の静的およびランダムな戦略より優れる。 さらに、我々のアプローチはオフラインとオンラインの両方の設定に適応し、新しい言語やデータセットにシームレスに適応できるため、多言語間の理解と生成が大幅に進歩する。

Large language models (LLMs) are at the forefront of transforming numerous domains globally. However, their inclusivity and effectiveness remain limited for non-Latin scripts and low-resource languages. This paper tackles the imperative challenge of enhancing the multilingual performance of LLMs without extensive training or fine-tuning. Through systematic investigation and evaluation of diverse languages using popular question-answering (QA) datasets, we present novel techniques that unlock the true potential of LLMs in a polyglot landscape. Our approach encompasses three key strategies that yield significant improvements in multilingual proficiency. First, by meticulously optimizing prompts tailored for polyglot LLMs, we unlock their latent capabilities, resulting in substantial performance boosts across languages. Second, we introduce a new hybrid approach that synergizes LLM Retrieval Augmented Generation (RAG) with multilingual embeddings and achieves improved multilingual task performance. Finally, we introduce a novel learning approach that dynamically selects the optimal prompt strategy, LLM model, and embedding model per query at run-time. This dynamic adaptation maximizes the efficacy of LLMs across languages, outperforming best static and random strategies. Additionally, our approach adapts configurations in both offline and online settings, and can seamlessly adapt to new languages and datasets, leading to substantial advancements in multilingual understanding and generation across diverse languages.
翻訳日:2024-05-29 17:30:42 公開日:2024-05-28
# LLMの3D化は自動運転の鍵か?

Is a 3D-Tokenized LLM the Key to Reliable Autonomous Driving? ( http://arxiv.org/abs/2405.18361v1 )

ライセンス: Link先を確認
Yifan Bai, Dongming Wu, Yingfei Liu, Fan Jia, Weixin Mao, Ziheng Zhang, Yucheng Zhao, Jianbing Shen, Xing Wei, Tiancai Wang, Xiangyu Zhang, (参考訳) 自律運転(AD)タスクの急速な進歩は、特に、包括的なエンドツーエンド計画を可能にする堅牢な論理的推論と認知能力を統合するビジョン言語モデル(VLM)の利用において、エンド・ツー・エンドのファッションへと大きくシフトした。 しかしながら、これらのVLMベースのアプローチは、信頼できる計画の土台として3次元幾何学的事前を欠いているエゴカー計画のための2次元視覚トークン化器と大型言語モデル(LLM)を統合する傾向がある。 当然のことながら、この観察は重要な懸念を提起する: 2Dトークン化されたLLMは3D環境を正確に知覚できるのか? 3次元物体検出,ベクトル化マップ構築,環境キャプションにおける現在のVLM法の評価は,残念ながらNOであることが示唆された。 言い換えれば、2Dトークン化されたLLMは信頼性の高い自動運転を提供しない。 そこで本研究では,LDMと1層線形プロジェクタを接続する3Dトークン化器として,DETR方式の3Dパーセプトロンを導入する。 このシンプルでエレガントな戦略は、Atlasと呼ばれ、3D物理世界の本質的な先駆を生かし、高解像度のマルチビュー画像を同時に処理し、時空間モデリングを利用することができる。 その単純さにもかかわらず、AtlasはnuScenesデータセット上での3D検出とエゴ計画タスクの両方で優れたパフォーマンスを示し、3Dトークン化されたLLMが信頼性の高い自動運転の鍵であることを証明した。 コードとデータセットがリリースされる。

Rapid advancements in Autonomous Driving (AD) tasks turned a significant shift toward end-to-end fashion, particularly in the utilization of vision-language models (VLMs) that integrate robust logical reasoning and cognitive abilities to enable comprehensive end-to-end planning. However, these VLM-based approaches tend to integrate 2D vision tokenizers and a large language model (LLM) for ego-car planning, which lack 3D geometric priors as a cornerstone of reliable planning. Naturally, this observation raises a critical concern: Can a 2D-tokenized LLM accurately perceive the 3D environment? Our evaluation of current VLM-based methods across 3D object detection, vectorized map construction, and environmental caption suggests that the answer is, unfortunately, NO. In other words, 2D-tokenized LLM fails to provide reliable autonomous driving. In response, we introduce DETR-style 3D perceptrons as 3D tokenizers, which connect LLM with a one-layer linear projector. This simple yet elegant strategy, termed Atlas, harnesses the inherent priors of the 3D physical world, enabling it to simultaneously process high-resolution multi-view images and employ spatiotemporal modeling. Despite its simplicity, Atlas demonstrates superior performance in both 3D detection and ego planning tasks on nuScenes dataset, proving that 3D-tokenized LLM is the key to reliable autonomous driving. The code and datasets will be released.
翻訳日:2024-05-29 17:30:42 公開日:2024-05-28
# 開量子系における対称性検出位相の計算的評価

Computational Characterization of Symmetry-Protected Topological Phases in Open Quantum Systems ( http://arxiv.org/abs/2405.18364v1 )

ライセンス: Link先を確認
Riku Masui, Keisuke Totsuka, (参考訳) 開量子系における対称性保護位相(SPT)位相を正しく特徴づけることは難しい問題である。 測定ベースの量子計算(MBQC)は、SPT相の非自明なエッジ状態を論理量子ビットとして利用するので、その計算力は位相の非自明な位相の性質と密接に結びついている。 本稿では,MBQCの計算能力の尺度であるゲート忠実度を用いて,混合状態におけるSPT位相を同定する。 具体的には,Affleck-Kennedy-Lieb-Tasaki状態におけるMBQCを考慮したHaldane相の強靭性について検討する。 我々の基準がどのように機能するかを説明するために、我々はゲートの忠実度を解析的および数値的に計算し、その振舞いは、オンサイト$\mathbb{Z}_2 \times \mathbb{Z}_2$対称性に関して特定の対称性条件を満たすかどうかに決定的に依存することを示した。 特に、非局所文字列順序パラメータの和によって与えられるアイデンティティゲートの忠実性は重要な役割を果たす。 さらに、高忠実度で他の(例えば、$Z$回転ゲート)ゲートを実行するためには、より強い対称性条件が必要であることを実証する。 MBQCがどのユニタリゲートをデコヒード状態に実装できるかを調べることで、文字列順序パラメータだけでは捕捉できないノイズSPT状態のよりリッチな構造について有用な知見を得ることができる。

It is a challenging problem to correctly characterize the symmetry-protected topological (SPT) phases in open quantum systems. As the measurement-based quantum computation (MBQC) utilizes non-trivial edge states of the SPT phases as the logical qubit, its computational power is closely tied to the non-trivial topological nature of the phases. In this paper, we propose to use the gate fidelity which is a measure of the computational power of the MBQC to identify the SPT phases in mixed-state settings. Specifically, we investigate the robustness of the Haldane phase by considering the MBQC on the Affleck-Kennedy-Lieb-Tasaki state subject to different types of noises. To illustrate how our criterion works, we analytically and numerically calculated the gate fidelity to find that its behavior depends crucially on whether the noises satisfy a certain symmetry condition with respect to the on-site $\mathbb{Z}_2 \times \mathbb{Z}_2$ symmetry. In particular, the fidelity for the identity gate, which is given by the sum of the non-local string order parameters, plays an important role. Furthermore, we demonstrate that a stronger symmetry conditions are required to be able to perform other (e.g., the $Z$-rotation gate) gates with high fidelity. By examining which unitary gates can be implemented with the MBQC on the decohered states, we can gain a useful insight into the richer structure of noisy SPT states that cannot be captured solely by the string order parameters.
翻訳日:2024-05-29 17:30:42 公開日:2024-05-28
# 2024年脳腫瘍切開(BraTS)課題 : 術後MRIにおけるグリオーマ切開

The 2024 Brain Tumor Segmentation (BraTS) Challenge: Glioma Segmentation on Post-treatment MRI ( http://arxiv.org/abs/2405.18368v1 )

ライセンス: Link先を確認
Maria Correia de Verdier, Rachit Saluja, Louis Gagnon, Dominic LaBella, Ujjwall Baid, Nourel Hoda Tahon, Martha Foltyn-Dumitru, Jikai Zhang, Maram Alafif, Saif Baig, Ken Chang, Gennaro D'Anna, Lisa Deptula, Diviya Gupta, Muhammad Ammar Haider, Ali Hussain, Michael Iv, Marinos Kontzialis, Paul Manning, Farzan Moodi, Teresa Nunes, Aaron Simon, Nico Sollmann, David Vu, Maruf Adewole, Jake Albrecht, Udunna Anazodo, Rongrong Chai, Verena Chung, Shahriar Faghani, Keyvan Farahani, Anahita Fathi Kazerooni, Eugenio Iglesias, Florian Kofler, Hongwei Li, Marius George Linguraru, Bjoern Menze, Ahmed W. Moawad, Yury Velichko, Benedikt Wiestler, Talissa Altes, Patil Basavasagar, Martin Bendszus, Gianluca Brugnara, Jaeyoung Cho, Yaseen Dhemesh, Brandon K. K. Fields, Filip Garrett, Jaime Gass, Lubomir Hadjiiski, Jona Hattangadi-Gluth, Christopher Hess, Jessica L. Houk, Edvin Isufi, Lester J. Layfield, George Mastorakos, John Mongan, Pierre Nedelec, Uyen Nguyen, Sebastian Oliva, Matthew W. Pease, Aditya Rastogi, Jason Sinclair, Robert X. Smith, Leo P. Sugrue, Jonathan Thacker, Igor Vidic, Javier Villanueva-Meyer, Nathan S. White, Mariam Aboian, Gian Marco Conte, Anders Dale, Mert R. Sabuncu, Tyler M. Seibert, Brent Weinberg, Aly Abayazeed, Raymond Huang, Sevcan Turk, Andreas M. Rauschecker, Nikdokht Farid, Philipp Vollmuth, Ayman Nada, Spyridon Bakas, Evan Calabrese, Jeffrey D. Rudie, (参考訳) グリオーマは成人で最も多い悪性原発性脳腫瘍であり、最も致命的ながんの1つである。 遺伝的多様性と外見、形状、組織学、治療反応における内在的不均一性のために、治療とモニタリングには多くの課題がある。 治療には手術、放射線治療、全身療法があり、MRI(MRI)は治療計画や治療後縦断的評価において重要な役割を果たしている。 2024年のBrain tumor Segmentation(BraTS)チャレンジは、治療後のグリオーマMRIにおける最大の専門家による注釈付きグリオーマMRIデータセットに基づいて、最先端の自動セグメンテーションモデルのコミュニティ標準とベンチマークを提供する。 競合相手は,T2/fluid-attenuated inversion recovery (FLAIR) hyperintensity (SNFH),non-enhancing tumor core (NETC),resection cavity (RC) の4つの異なる腫瘍部分領域を,拡張組織(ET),非エンハンシングT2/fluid-attenuated Inversion recovery (FLAIR) hyperintensity (SNFH) の周囲で予測する自動セグメンテーションモデルを開発する。 モデルは個別の検証とテストデータセットで評価され、BraTS 2024のクラスタで使用されている標準化されたパフォーマンスメトリクスを使用して、障害度に関するDice similarity CoefficientとHausdorff Distanceを含む。 この課題で開発されたモデルは、自動MRIセグメンテーションの分野を前進させ、臨床実践への統合に貢献し、最終的には患者のケアを強化する。

Gliomas are the most common malignant primary brain tumors in adults and one of the deadliest types of cancer. There are many challenges in treatment and monitoring due to the genetic diversity and high intrinsic heterogeneity in appearance, shape, histology, and treatment response. Treatments include surgery, radiation, and systemic therapies, with magnetic resonance imaging (MRI) playing a key role in treatment planning and post-treatment longitudinal assessment. The 2024 Brain Tumor Segmentation (BraTS) challenge on post-treatment glioma MRI will provide a community standard and benchmark for state-of-the-art automated segmentation models based on the largest expert-annotated post-treatment glioma MRI dataset. Challenge competitors will develop automated segmentation models to predict four distinct tumor sub-regions consisting of enhancing tissue (ET), surrounding non-enhancing T2/fluid-attenuated inversion recovery (FLAIR) hyperintensity (SNFH), non-enhancing tumor core (NETC), and resection cavity (RC). Models will be evaluated on separate validation and test datasets using standardized performance metrics utilized across the BraTS 2024 cluster of challenges, including lesion-wise Dice Similarity Coefficient and Hausdorff Distance. Models developed during this challenge will advance the field of automated MRI segmentation and contribute to their integration into clinical practice, ultimately enhancing patient care.
翻訳日:2024-05-29 17:30:42 公開日:2024-05-28
# PromptWizard:タスク対応エージェント駆動型Prompt最適化フレームワーク

PromptWizard: Task-Aware Agent-driven Prompt Optimization Framework ( http://arxiv.org/abs/2405.18369v1 )

ライセンス: Link先を確認
Eshaan Agarwal, Vivek Dani, Tanuja Ganu, Akshay Nambi, (参考訳) 大規模言語モデル(LLM)は、さまざまな領域にわたるAIに革命をもたらし、目覚ましい能力を示している。 彼らの成功の中心は、モデル出力生成を導くプロンプトの概念である。 しかし、手動のプロンプトエンジニアリングは労働集約的でドメイン固有であり、自動化されたソリューションを必要とする。 本稿では,特定のタスクに適したプロンプトを反復的に合成・洗練するためにLLMを利用する新しいフレームワークであるPromptWizardを紹介する。 既存のアプローチとは異なり、PromptWizardはインプロンプト命令とインコンテキスト例の両方を最適化し、モデルパフォーマンスを最大化する。 このフレームワークは、命令を変更し、ネガティブな例を取り入れて、理解を深め、多様性を確保することで、プロンプトを反復的に洗練する。 さらに、批評家の助けを借りて命令と例をさらに強化し、最適なパフォーマンスのための詳細な推論ステップに富んだ新しい命令と例を合成する。 PromptWizardは、最先端のアプローチと比較して計算効率、さまざまなトレーニングデータを持つシナリオへの適応性、より小さなLLMによる有効性など、いくつかの重要な機能と機能を提供している。 8つのデータセット上の35のタスクにわたる厳密な評価は、PromptWizardが既存のプロンプト戦略よりも優れていることを示している。

Large language models (LLMs) have revolutionized AI across diverse domains, showcasing remarkable capabilities. Central to their success is the concept of prompting, which guides model output generation. However, manual prompt engineering is labor-intensive and domain-specific, necessitating automated solutions. This paper introduces PromptWizard, a novel framework leveraging LLMs to iteratively synthesize and refine prompts tailored to specific tasks. Unlike existing approaches, PromptWizard optimizes both prompt instructions and in-context examples, maximizing model performance. The framework iteratively refines prompts by mutating instructions and incorporating negative examples to deepen understanding and ensure diversity. It further enhances both instructions and examples with the aid of a critic, synthesizing new instructions and examples enriched with detailed reasoning steps for optimal performance. PromptWizard offers several key features and capabilities, including computational efficiency compared to state-of-the-art approaches, adaptability to scenarios with varying amounts of training data, and effectiveness with smaller LLMs. Rigorous evaluation across 35 tasks on 8 datasets demonstrates PromptWizard's superiority over existing prompt strategies, showcasing its efficacy and scalability in prompt optimization.
翻訳日:2024-05-29 17:30:42 公開日:2024-05-28
# ML-QLS:マルチレベル量子レイアウト合成

ML-QLS: Multilevel Quantum Layout Synthesis ( http://arxiv.org/abs/2405.18371v1 )

ライセンス: Link先を確認
Wan-Hsuan Lin, Jason Cong, (参考訳) 量子レイアウト合成(QLS)は、物理量子デバイス上での量子回路実行の最適化において重要な役割を果たす。 量子コンピュータが数百の量子ビットを持つ時代に入ると、最適アプローチによるスケーラビリティの問題と、グローバル最適化の欠如によるヒューリスティック手法の性能低下に直面します。 そこで本研究では,VLSI設計における大規模問題の解決に有効な手法であるマルチレベルフレームワークを用いたヒューリスティック手法の解法を改良したハイブリッド設計を提案する。 本稿では,新しいコスト関数とクラスタリング戦略を統合したスケーラブルな改善操作を備えた,最初のマルチレベル量子レイアウトツールであるML-QLSを提案する。 我々のクラスタリングは、量子回路やデバイスに対する適切な問題近似を生成するための貴重な洞察を提供する。 実験の結果,ML-QLSは数百の量子ビットを含む問題にスケールアップでき,大規模回路用ヒューリスティックQLSツールよりも優れた52%の性能向上を実現し,量子アプリケーションにおけるマルチレベルフレームワークの有効性を裏付けることがわかった。

Quantum Layout Synthesis (QLS) plays a crucial role in optimizing quantum circuit execution on physical quantum devices. As we enter the era where quantum computers have hundreds of qubits, we are faced with scalability issues using optimal approaches and degrading heuristic methods' performance due to the lack of global optimization. To this end, we introduce a hybrid design that obtains the much improved solution for the heuristic method utilizing the multilevel framework, which is an effective methodology to solve large-scale problems in VLSI design. In this paper, we present ML-QLS, the first multilevel quantum layout tool with a scalable refinement operation integrated with novel cost functions and clustering strategies. Our clustering provides valuable insights into generating a proper problem approximation for quantum circuits and devices. Our experimental results demonstrate that ML-QLS can scale up to problems involving hundreds of qubits and achieve a remarkable 52% performance improvement over leading heuristic QLS tools for large circuits, which underscores the effectiveness of multilevel frameworks in quantum applications.
翻訳日:2024-05-29 17:30:42 公開日:2024-05-28
# SGDモデリングのためのヘシアン対応確率微分方程式

A Hessian-Aware Stochastic Differential Equation for Modelling SGD ( http://arxiv.org/abs/2405.18373v1 )

ライセンス: Link先を確認
Xiang Li, Zebang Shen, Liang Zhang, Niao He, (参考訳) SGD(Stochastic Gradient Descent)の連続時間近似は定常点からの脱出行動を研究する上で重要なツールである。 しかし、既存の確率微分方程式(SDE)モデルは、単純な二次目的に対しても、これらの挙動を完全に捉えることができない。 新たな確率的後方誤り解析フレームワークを基盤として,対象関数のヘッセン情報と拡散項を組み込んだSDEであるHessian-Aware Stochastic Modified Equation (HA-SME) を導出する。 解析の結果, HA-SMEは既存のSDEモデルと最良近似誤差の保証値に一致し, 目的の滑らか度パラメータに大きく依存することがわかった。 さらに、二次的な目的に対して、軽度条件下では、HA-SMEは分布感覚におけるSGDのダイナミクスを正確に回復する最初のSDEモデルであることが証明された。 その結果,定常点近傍の局所景観を2次的に近似できる場合,HA-SMEはSGDの局所避難挙動を正確に予測することが期待される。

Continuous-time approximation of Stochastic Gradient Descent (SGD) is a crucial tool to study its escaping behaviors from stationary points. However, existing stochastic differential equation (SDE) models fail to fully capture these behaviors, even for simple quadratic objectives. Built on a novel stochastic backward error analysis framework, we derive the Hessian-Aware Stochastic Modified Equation (HA-SME), an SDE that incorporates Hessian information of the objective function into both its drift and diffusion terms. Our analysis shows that HA-SME matches the order-best approximation error guarantee among existing SDE models in the literature, while achieving a significantly reduced dependence on the smoothness parameter of the objective. Further, for quadratic objectives, under mild conditions, HA-SME is proved to be the first SDE model that recovers exactly the SGD dynamics in the distributional sense. Consequently, when the local landscape near a stationary point can be approximated by quadratics, HA-SME is expected to accurately predict the local escaping behaviors of SGD.
翻訳日:2024-05-29 17:30:42 公開日:2024-05-28
# ヘイト・サブレディット(Hate Subreddits)からユーザーを駆逐する敵対的カウンテルピー

Hostile Counterspeech Drives Users From Hate Subreddits ( http://arxiv.org/abs/2405.18374v1 )

ライセンス: Link先を確認
Daniel Hickey, Matheus Schmitz, Daniel M. T. Fessler, Paul E. Smaldino, Kristina Lerman, Goran Murić, Keith Burghardt, (参考訳) ヘイトスピーチに反対する「カウンタースピーチ」は、ソーシャルメディアでのヘイトスピーチを減らす戦略として近年注目されている。 以前の研究では、反音声はヘイトスピーチを幾らか減らす可能性があると示唆されていたが、オンラインヘイトコミュニティへの参加に対する効果についてはほとんど分かっていない。 Reddit内で25の大規模なヘイトコミュニティ(サブレディット)を特定し、これらのコミュニティ内の新参者に対する反音声の効果を分析することで、これらのギャップに対処し始めます。 まず,これらのサブレディット内に,注意深い注釈付き対数音声コメントと非対数音声コメントのデータセットを構築した。 このデータセットを使用して、最先端の音声検出モデルをトレーニングする。 次に,憎悪のサブレディットにおける新参者のエンゲージメントに対する敵対的・非敵対的反響の因果効果を評価するためにマッチングを用いた。 非敵対的なカウンタースピーチは、ユーザーがこれらの憎悪のサブレディットから完全に切り離されるのを防ぐには効果がないが、単一の敵対的なカウンタースピーチコメントは、将来のエンゲージメントの可能性を著しく減少させる。 対音声効果の理解にニュアンスを与えながら, これらの結果が得られた。 a) 敵意の反弁論が、新参者に対して、ネットヘイトフルトへの参加を強要するか、あるいは単に、調整の少ない、より極端なヘイトコミュニティへと駆り立てるか、という疑問を未解決にしておくこと。 b) 相対的に一般的であり,社会における対立性の純レベルを緩和するよりも,さらに悪化する可能性のある敵対的対言に関する倫理的考察を提起すること。 これらの知見は、対音声戦術を改善し、意図しない害を最小限に抑えるための今後の研究の重要性を浮き彫りにした。

Counterspeech -- speech that opposes hate speech -- has gained significant attention recently as a strategy to reduce hate on social media. While previous studies suggest that counterspeech can somewhat reduce hate speech, little is known about its effects on participation in online hate communities, nor which counterspeech tactics reduce harmful behavior. We begin to address these gaps by identifying 25 large hate communities ("subreddits") within Reddit and analyzing the effect of counterspeech on newcomers within these communities. We first construct a new public dataset of carefully annotated counterspeech and non-counterspeech comments within these subreddits. We use this dataset to train a state-of-the-art counterspeech detection model. Next, we use matching to evaluate the causal effects of hostile and non-hostile counterspeech on the engagement of newcomers in hate subreddits. We find that, while non-hostile counterspeech is ineffective at keeping users from fully disengaging from these hate subreddits, a single hostile counterspeech comment substantially reduces both future likelihood of engagement. While offering nuance to the understanding of counterspeech efficacy, these results a) leave unanswered the question of whether hostile counterspeech dissuades newcomers from participation in online hate writ large, or merely drives them into less-moderated and more extreme hate communities, and b) raises ethical considerations about hostile counterspeech, which is both comparatively common and might exacerbate rather than mitigate the net level of antagonism in society. These findings underscore the importance of future work to improve counterspeech tactics and minimize unintended harm.
翻訳日:2024-05-29 17:30:42 公開日:2024-05-28
# タイのWinograd Schemas:タイのコモンセンス推論のベンチマーク

Thai Winograd Schemas: A Benchmark for Thai Commonsense Reasoning ( http://arxiv.org/abs/2405.18375v1 )

ライセンス: Link先を確認
Phakphum Artkaew, (参考訳) コモンセンス推論は、自然言語理解の重要な側面の一つであり、それを評価するためにいくつかのベンチマークが開発された。 しかし、英語以外の言語では、これらのベンチマークのいくつかしか利用できない。 並列ベンチマークの開発は言語間評価を促進し、さまざまな言語の理解を深める。 本研究は、タイ語の文脈における常識推論能力を評価するために設計された新しいデータセットである、タイ語におけるウィノグラードスキーマのコレクションを紹介する。 ネイティブ話者、プロの翻訳者、徹底的な検証を含む方法論を通じて、スキーマはあいまいさと常識的な課題を維持しながら、タイ語のニュアンス、イディオム、文化的な参照を深く反映することを目的としている。 我々は,このベンチマークで人気の高い大規模言語モデルの性能を評価し,その強み,限界を明らかにし,現在の最先端技術に対する洞察を提供する。 GPT-4やClaude-3-Opusのようなモデルは英語では精度が高いが、タイ語では性能が著しく低下し、多言語コモンセンス推論のさらなる進歩の必要性が浮かび上がっている。

Commonsense reasoning is one of the important aspect of natural language understanding, with several benchmarks developed to evaluate it. However, only a few of these benchmarks are available in languages other than English. Developing parallel benchmarks facilitates cross-lingual evaluation, enabling a better understanding of different languages. This research introduces a collection of Winograd Schemas in Thai, a novel dataset designed to evaluate commonsense reasoning capabilities in the context of the Thai language. Through a methodology involving native speakers, professional translators, and thorough validation, the schemas aim to closely reflect Thai language nuances, idioms, and cultural references while maintaining ambiguity and commonsense challenges. We evaluate the performance of popular large language models on this benchmark, revealing their strengths, limitations, and providing insights into the current state-of-the-art. Results indicate that while models like GPT-4 and Claude-3-Opus achieve high accuracy in English, their performance significantly drops in Thai, highlighting the need for further advancements in multilingual commonsense reasoning.
翻訳日:2024-05-29 17:30:42 公開日:2024-05-28
# MLLM駆動型カリキュラム学習によるソースフリードメイン適応の強化

Empowering Source-Free Domain Adaptation with MLLM-driven Curriculum Learning ( http://arxiv.org/abs/2405.18376v1 )

ライセンス: Link先を確認
Dongjie Chen, Kartik Patwari, Zhengfeng Lai, Sen-ching Cheung, Chen-Nee Chuah, (参考訳) Source-Free Domain Adaptation (SFDA)は、未ラベルのターゲットデータのみを使用して、トレーニング済みのソースモデルをターゲットドメインに適応することを目的としている。 現在のSFDAの手法は、訓練済みの知識を効果的に活用し、対象のドメインデータを活用するという課題に直面している。 MLLM(Multimodal Large Language Models)は、視覚情報やテキスト情報を理解する際、顕著な能力を提供するが、SFDAへの適用性は、命令追従の失敗、集中的な計算要求、適応前のパフォーマンス測定の困難といった課題を引き起こす。 これらの問題を緩和するために、SFDAにおける擬似ラベルによる知識活用のために複数のMLLMを統合する新しいフレームワークである信頼性に基づくカリキュラム学習(RCL)を提案する。 提案手法には, 信頼性の高い知識伝達, 自己補正, MLLM誘導型知識拡張, マルチホット・マスキング・リファインメントが組み込まれ, 対象領域内のラベルなしデータを段階的に活用する。 RCLは複数のSFDAベンチマーク(例: $\textbf{+9.4%}$)でSOTA(State-of-the-art)のパフォーマンスを達成し、ソースデータへのアクセスを必要とせずに適応性と堅牢性を向上させる効果を実証している。 コード:https://github.com/Dong-Jie-Chen/RCL。

Source-Free Domain Adaptation (SFDA) aims to adapt a pre-trained source model to a target domain using only unlabeled target data. Current SFDA methods face challenges in effectively leveraging pre-trained knowledge and exploiting target domain data. Multimodal Large Language Models (MLLMs) offer remarkable capabilities in understanding visual and textual information, but their applicability to SFDA poses challenges such as instruction-following failures, intensive computational demands, and difficulties in performance measurement prior to adaptation. To alleviate these issues, we propose Reliability-based Curriculum Learning (RCL), a novel framework that integrates multiple MLLMs for knowledge exploitation via pseudo-labeling in SFDA. Our framework incorporates proposed Reliable Knowledge Transfer, Self-correcting and MLLM-guided Knowledge Expansion, and Multi-hot Masking Refinement to progressively exploit unlabeled data in the target domain. RCL achieves state-of-the-art (SOTA) performance on multiple SFDA benchmarks, e.g., $\textbf{+9.4%}$ on DomainNet, demonstrating its effectiveness in enhancing adaptability and robustness without requiring access to source data. Code: https://github.com/Dong-Jie-Chen/RCL.
翻訳日:2024-05-29 17:30:42 公開日:2024-05-28
# LLaMA-NAS:大規模言語モデルの効率的なニューラルネットワーク探索

LLaMA-NAS: Efficient Neural Architecture Search for Large Language Models ( http://arxiv.org/abs/2405.18377v1 )

ライセンス: Link先を確認
Anthony Sarah, Sharath Nittur Sridhar, Maciej Szankin, Sairam Sundaresan, (参考訳) 自然言語処理、複雑な推論、感情分析、その他のタスクにおける現代の大規模言語モデル(LLM)の能力は異例であり、広く採用されている。 残念なことに、これらの能力はメモリと計算コストが非常に高く、ほとんどのハードウェアプラットフォームでのLLMの使用を妨げている。 そこで本研究では,1ショットNASを用いたLLaMA2-7Bに基づくパレート最適ネットワークアーキテクチャの探索手法を提案する。 特に、LLaMA2-7Bを1回だけ微調整し、遺伝的アルゴリズムに基づく探索を適用して、より小さく、より計算力の少ないネットワークアーキテクチャを見つける。 特定の標準ベンチマークタスクに対して、事前訓練されたLLaMA2-7Bネットワークは不要に大きく、複雑であることを示す。 より具体的には、モデルサイズの1.5倍の削減と1.3倍のスループットを、無視できる精度の低下のあるタスクに対して示す。 より小型で高性能なネットワークアーキテクチャの発見に加えて,特定プルーニングやスパシフィケーション技術よりも効率的かつ効率的な手法が提案されている。 最後に、量子化が我々の方法とどのように相補的であるかを示し、また、量子化を用いて、発見するネットワークのサイズと複雑さをさらに減らすことができることを示した。 当社の作業は,安価で手軽なハードウェアプラットフォームで使用可能なLDMを自動生成する手段を提供するものだ,と私たちは信じています。

The abilities of modern large language models (LLMs) in solving natural language processing, complex reasoning, sentiment analysis and other tasks have been extraordinary which has prompted their extensive adoption. Unfortunately, these abilities come with very high memory and computational costs which precludes the use of LLMs on most hardware platforms. To mitigate this, we propose an effective method of finding Pareto-optimal network architectures based on LLaMA2-7B using one-shot NAS. In particular, we fine-tune LLaMA2-7B only once and then apply genetic algorithm-based search to find smaller, less computationally complex network architectures. We show that, for certain standard benchmark tasks, the pre-trained LLaMA2-7B network is unnecessarily large and complex. More specifically, we demonstrate a 1.5x reduction in model size and 1.3x speedup in throughput for certain tasks with negligible drop in accuracy. In addition to finding smaller, higher-performing network architectures, our method does so more effectively and efficiently than certain pruning or sparsification techniques. Finally, we demonstrate how quantization is complementary to our method and that the size and complexity of the networks we find can be further decreased using quantization. We believe that our work provides a way to automatically create LLMs which can be used on less expensive and more readily available hardware platforms.
翻訳日:2024-05-29 17:30:42 公開日:2024-05-28
# 不変・同変学習におけるカノン化の視点

A Canonization Perspective on Invariant and Equivariant Learning ( http://arxiv.org/abs/2405.18378v1 )

ライセンス: Link先を確認
George Ma, Yifei Wang, Derek Lim, Stefanie Jegelka, Yisen Wang, (参考訳) 多くの応用において、我々は、データに固有の対称性のために、ニューラルネットワークが特定のグループに不変または等値を示すことを望んでいます。 近年,フレームの入力依存部分集合,すなわちフレームの入力依存部分集合を平均化することにより,対称性を効率的に達成するための統一的な枠組みが出現している。 現在欠けているのは、フレームの設計に関する原則的な理解です。 そこで本研究では,フレーム設計の本質的かつ完全なビューを提供する,カノン化の観点を紹介する。 正準化は、入力を正準形式にマッピングすることで不変性を得るための古典的なアプローチである。 フレームと標準形式の間には固有の関係があることが示される。 この接続を利用することで、フレームの複雑さを効率よく比較し、特定のフレームの最適性を決定することができる。 この原理で導かれ、我々は、理論上も経験上も、既存の手法よりも厳格に優れている固有ベクトルのための新しいフレームを設計する。 キャノン化パースペクティブへの還元は、以前の方法と等価性をさらに明らかにする。 これらの観察から、カノン化は、既存のフレーム・アブリゲーション手法の基本的な理解を提供し、既存の同変および不変学習手法を統一することを示唆している。

In many applications, we desire neural networks to exhibit invariance or equivariance to certain groups due to symmetries inherent in the data. Recently, frame-averaging methods emerged to be a unified framework for attaining symmetries efficiently by averaging over input-dependent subsets of the group, i.e., frames. What we currently lack is a principled understanding of the design of frames. In this work, we introduce a canonization perspective that provides an essential and complete view of the design of frames. Canonization is a classic approach for attaining invariance by mapping inputs to their canonical forms. We show that there exists an inherent connection between frames and canonical forms. Leveraging this connection, we can efficiently compare the complexity of frames as well as determine the optimality of certain frames. Guided by this principle, we design novel frames for eigenvectors that are strictly superior to existing methods -- some are even optimal -- both theoretically and empirically. The reduction to the canonization perspective further uncovers equivalences between previous methods. These observations suggest that canonization provides a fundamental understanding of existing frame-averaging methods and unifies existing equivariant and invariant learning methods.
翻訳日:2024-05-29 17:20:57 公開日:2024-05-28
# 予測駆動型ブートストラップに関する一考察

A Note on the Prediction-Powered Bootstrap ( http://arxiv.org/abs/2405.18379v1 )

ライセンス: Link先を確認
Tijana Zrnic, (参考訳) 本稿では,ブートストラップに基づく予測型推論手法PPBootを紹介する。 PPBootは任意の推定問題に適用可能で、実装は非常に簡単で、ブートストラップの1つのアプリケーションのみを必要とする。 一連の例を通して、PPBoot は漸近的正規性$\unicode{x2013}$ が適用可能な場合、漸近的特徴付けを必要とせずに、しばしば初期の PPI(++) メソッドとほぼ同じ(時としてより優れている)ことを実証する。 その汎用性を考えると、PPBootは中心極限定理の証明が難しい問題への予測による推論の適用範囲を単純化し、拡張することができる。

We introduce PPBoot: a bootstrap-based method for prediction-powered inference. PPBoot is applicable to arbitrary estimation problems and is very simple to implement, essentially only requiring one application of the bootstrap. Through a series of examples, we demonstrate that PPBoot often performs nearly identically to (and sometimes better than) the earlier PPI(++) method based on asymptotic normality$\unicode{x2013}$when the latter is applicable$\unicode{x2013}$without requiring any asymptotic characterizations. Given its versatility, PPBoot could simplify and expand the scope of application of prediction-powered inference to problems where central limit theorems are hard to prove.
翻訳日:2024-05-29 17:20:57 公開日:2024-05-28
# OwLore: メモリ効率の良いLDMファインチューニングのための外周方向の層状サンプリング低ランク投影

OwLore: Outlier-weighed Layerwise Sampled Low-Rank Projection for Memory-Efficient LLM Fine-tuning ( http://arxiv.org/abs/2405.18380v1 )

ライセンス: Link先を確認
Pengxiang Li, Lu Yin, Xiaowei Gao, Shiwei Liu, (参考訳) 大規模言語モデル(LLM)の急速な進歩は、様々な自然言語処理タスクに革命をもたらした。 しかし、LLMのかなりのサイズは、トレーニングや微調整において重大な課題を呈している。 低ランク適応(LoRA)のようなパラメータ効率のよいアプローチは人気があるが、フルランクの微調整に比べて性能を損なうことが多い。 本稿では,新しいメモリ効率の高い微細調整手法であるOutlier-weighed Layerwise Smpled Low-Rank Projection (OwLore)を提案する。 我々はまず、ヘビータイル自己正則化理論(HT-SR)のレンズを通して、外周現象を解釈し、より多くの外周を持つ層がより重くなり、結果としてより訓練される傾向があることを発見した。 この発見に触発されて、OwLoreは、事前訓練されたLLMに格納された知識をよりよく活用するために、より多くのアウトレーヤを持つ層に高いサンプリング確率を戦略的に割り当てた。 微調整のメモリ要求を緩和するため,我々は低ランクプロジェクションの勾配をアプローチに統合し,各層を低ランクで効率的に訓練する。 OwLoreは低ランク・最適層幅サンプリングの効率的な特性を取り入れることで,LLMプルーニングにおけるメモリ性能のトレードオフを大幅に改善する。 LLaMa2、LLaMa3、Mistralなど、さまざまなアーキテクチャにわたる大規模な実験では、OwLoreが完全な微調整を含むベースラインアプローチを一貫して上回っていることが示されています。 具体的には、Commonsense Reasoningベンチマークの平均精度が1.1%向上し、MMLUが3.0%改善され、MT-Benchが10%向上し、メモリ効率が向上した。 OwLoreを使えば、わずか21GBのメモリでLLaMa2-7Bを微調整できます。

The rapid advancements in Large Language Models (LLMs) have revolutionized various natural language processing tasks. However, the substantial size of LLMs presents significant challenges in training or fine-tuning. While parameter-efficient approaches such as low-rank adaptation (LoRA) have gained popularity, they often compromise performance compared to full-rank fine-tuning. In this paper, we propose Outlier-weighed Layerwise Sampled Low-Rank Projection (OwLore), a new memory-efficient fine-tuning approach, inspired by the layerwise outlier distribution of LLMs, which dynamically samples pre-trained layers to fine-tune instead of adding additional adaptors. We first interpret the outlier phenomenon through the lens of Heavy-Tailed Self-Regularization theory (HT-SR), discovering that layers with more outliers tend to be more heavy-tailed and consequently better trained. Inspired by this finding, OwLore strategically assigns higher sampling probabilities to layers with more outliers to better leverage the knowledge stored in pre-trained LLMs. To further mitigate the memory demands of fine-tuning, we integrate gradient low-rank projection into our approach, which facilitates each layer to be efficiently trained in a low-rank manner. By incorporating the efficient characteristics of low-rank and optimal layerwise sampling, OwLore significantly improves the memory-performance trade-off in LLM pruning. Our extensive experiments across various architectures, including LLaMa2, LLaMa3, and Mistral, demonstrate that OwLore consistently outperforms baseline approaches, including full fine-tuning. Specifically, it achieves up to a 1.1% average accuracy gain on the Commonsense Reasoning benchmark, a 3.0% improvement on MMLU, and a notable 10% boost on MT-Bench, while being more memory efficient. OwLore allows us to fine-tune LLaMa2-7B with only 21GB of memory.
翻訳日:2024-05-29 17:20:57 公開日:2024-05-28
# 脳腫瘍セグメンテーション(BraTS)チャレンジ2024:髄膜腫放射線治療における自動セグメンテーション計画

Brain Tumor Segmentation (BraTS) Challenge 2024: Meningioma Radiotherapy Planning Automated Segmentation ( http://arxiv.org/abs/2405.18383v1 )

ライセンス: Link先を確認
Dominic LaBella, Katherine Schumacher, Michael Mix, Kevin Leu, Shan McBurney-Lin, Pierre Nedelec, Javier Villanueva-Meyer, Jonathan Shapey, Tom Vercauteren, Kazumi Chia, Omar Al-Salihi, Justin Leu, Lia Halasz, Yury Velichko, Chunhao Wang, John Kirkpatrick, Scott Floyd, Zachary J. Reitman, Trey Mullikin, Ulas Bagci, Sean Sachdev, Jona A. Hattangadi-Gluth, Tyler Seibert, Nikdokht Farid, Connor Puett, Matthew W. Pease, Kevin Shiue, Syed Muhammad Anwar, Shahriar Faghani, Muhammad Ammar Haider, Pranav Warman, Jake Albrecht, András Jakab, Mana Moassefi, Verena Chung, Alejandro Aristizabal, Alexandros Karargyris, Hasan Kassem, Sarthak Pati, Micah Sheller, Christina Huang, Aaron Coley, Siddharth Ghanta, Alex Schneider, Conrad Sharp, Rachit Saluja, Florian Kofler, Philipp Lohmann, Phillipp Vollmuth, Louis Gagnon, Maruf Adewole, Hongwei Bran Li, Anahita Fathi Kazerooni, Nourel Hoda Tahon, Udunna Anazodo, Ahmed W. Moawad, Bjoern Menze, Marius George Linguraru, Mariam Aboian, Benedikt Wiestler, Ujjwal Baid, Gian-Marco Conte, Andreas M. T. Rauschecker, Ayman Nada, Aly H. Abayazeed, Raymond Huang, Maria Correia de Verdier, Jeffrey D. Rudie, Spyridon Bakas, Evan Calabrese, (参考訳) 2024 Brain tumor Segmentation Meningioma Radiotherapy (BraTS-MEN-RT) の課題は、従来の放射線治療または定位放射線治療を受けた無傷または術後の髄膜腫患者に対して、専門家が注釈したターゲットラベルを付けた、脳MRIの最大多施設的データセットを用いて、自動セグメンテーションアルゴリズムを推進することである。 それぞれの症例は、3D後T1強調放射線治療計画MRIをネイティブ取得空間に配置し、GTV(Grog tumor volume)を表すシングルラベルの"target volume"と、術後の任意の部位を含む。 ターゲットボリュームアノテーションは、確立された放射線治療計画プロトコルに準拠し、ケースや機関間の一貫性を確保する。 術前の髄膜腫ではGTV全体とそれに伴う結節尾部を対象とし,術後の症例では治療機関が判定した結節切除の空洞マージンも含む。 ケースアノテーションは、専門の神経放射線学者と放射線腫瘍学者によってレビューされ、承認された。 参加チームは、この包括的なデータセットを使用して、自動セグメンテーションモデルの開発とコンテナ化、評価を行う。 モデル性能は, 病変関連Dice similarity Coefficientと95% Hausdorff 距離を用いて評価する。 2024年10月のMedicical Image Computing and Computer Assisted Intervention Conferenceで、トップパフォーマンスのチームが認識される。 BraTS-MEN-RTは、正確な腫瘍の分節化を可能とし、適切な治療を容易にし、最終的には患者の成績を改善することで、自動放射線治療計画を大幅に進歩させることが期待されている。

The 2024 Brain Tumor Segmentation Meningioma Radiotherapy (BraTS-MEN-RT) challenge aims to advance automated segmentation algorithms using the largest known multi-institutional dataset of radiotherapy planning brain MRIs with expert-annotated target labels for patients with intact or post-operative meningioma that underwent either conventional external beam radiotherapy or stereotactic radiosurgery. Each case includes a defaced 3D post-contrast T1-weighted radiotherapy planning MRI in its native acquisition space, accompanied by a single-label "target volume" representing the gross tumor volume (GTV) and any at-risk post-operative site. Target volume annotations adhere to established radiotherapy planning protocols, ensuring consistency across cases and institutions. For pre-operative meningiomas, the target volume encompasses the entire GTV and associated nodular dural tail, while for post-operative cases, it includes at-risk resection cavity margins as determined by the treating institution. Case annotations were reviewed and approved by expert neuroradiologists and radiation oncologists. Participating teams will develop, containerize, and evaluate automated segmentation models using this comprehensive dataset. Model performance will be assessed using the lesion-wise Dice Similarity Coefficient and the 95% Hausdorff distance. The top-performing teams will be recognized at the Medical Image Computing and Computer Assisted Intervention Conference in October 2024. BraTS-MEN-RT is expected to significantly advance automated radiotherapy planning by enabling precise tumor segmentation and facilitating tailored treatment, ultimately improving patient outcomes.
翻訳日:2024-05-29 17:20:57 公開日:2024-05-28
# 関数の粒度におけるJavaScriptの追跡をブロックする

Blocking Tracking JavaScript at the Function Granularity ( http://arxiv.org/abs/2405.18385v1 )

ライセンス: Link先を確認
Abdul Haddi Amjad, Shaoor Munir, Zubair Shafiq, Muhammad Ali Gulzar, (参考訳) 現代のWebサイトは、機能とトラッキングの両方を実装するためにJavaScriptに大きく依存している。 既存のプライバシーを強化したコンテンツブロッキングツールは、機能とトラッキングの両方を同時に実装する混合スクリプトと競合する。 Not.jsは、関数レベルの粒度で動作する、きめ細かいJavaScriptブロッキングツールである。 Not.jsの強みは、コールスタックや各JavaScript関数のコールコンテキストを含む動的実行コンテキストを分析し、このコンテキストをエンコードしてリッチなグラフ表現を構築することである。 Not.jsは、Webページのグラフ表現上の教師付き機械学習分類器をトレーニングし、まずJavaScript関数レベルでトラッキングを検出し、追跡を削除しながら機能を保存するサロゲートスクリプトを自動的に生成する。 トップ10KのWebサイトにおけるNot.jsの評価は、JavaScript関数のトラッキングにおいて、高い精度(94%)とリコール(98%)を達成し、JavaScriptの難読化に対して堅牢でありながら、最先端のJavaScriptよりも優れていることを示している。 トラッキング関数のきめ細かい検出により、Not.jsは、大きな障害を引き起こすことなく、JavaScript関数のトラッキングを削除するサロゲートスクリプトを自動生成できる。 Not.jsのデプロイでは、上位10Kサイトの62.3%に混合スクリプトが存在し、混合スクリプトの70.6%がクッキーゴーストライティングなどのトラッキング活動に従事している第三者であることを示している。 Not.jsが検出したトラッキング機能のサンプルは、現在フィルタリストに含まれていない混合スクリプトの中で、フィルタリストの作者と共有しています。

Modern websites extensively rely on JavaScript to implement both functionality and tracking. Existing privacy enhancing content blocking tools struggle against mixed scripts, which simultaneously implement both functionality and tracking, because blocking the script would break functionality and not blocking it would allow tracking. We propose Not.js, a fine grained JavaScript blocking tool that operates at the function level granularity. Not.js's strengths lie in analyzing the dynamic execution context, including the call stack and calling context of each JavaScript function, and then encoding this context to build a rich graph representation. Not.js trains a supervised machine learning classifier on a webpage's graph representation to first detect tracking at the JavaScript function level and then automatically generate surrogate scripts that preserve functionality while removing tracking. Our evaluation of Not.js on the top 10K websites demonstrates that it achieves high precision (94%) and recall (98%) in detecting tracking JavaScript functions, outperforming the state of the art while being robust against off the shelf JavaScript obfuscation. Fine grained detection of tracking functions allows Not.js to automatically generate surrogate scripts that remove tracking JavaScript functions without causing major breakage. Our deployment of Not.js shows that mixed scripts are present on 62.3% of the top 10K websites, with 70.6% of the mixed scripts being third party that engage in tracking activities such as cookie ghostwriting. We share a sample of the tracking functions detected by Not.js within mixed scripts not currently on filter lists with filter list authors, who confirm that these scripts are not blocked due to potential functionality breakage, despite being known to implement tracking.
翻訳日:2024-05-29 17:20:57 公開日:2024-05-28
# Instruction-MusicGen:インストラクションチューニングによる音楽モデルのためのテキスト-音楽編集のアンロック

Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning ( http://arxiv.org/abs/2405.18386v1 )

ライセンス: Link先を確認
Yixiao Zhang, Yukara Ikemiya, Woosung Choi, Naoki Murata, Marco A. Martínez-Ramírez, Liwei Lin, Gus Xia, Wei-Hsiang Liao, Yuki Mitsufuji, Simon Dixon, (参考訳) テキスト・ツー・ミュージック編集の最近の進歩は、テキストクエリを使って音楽を変更する(例えば、スタイルを変更したり、楽器の部品を調整したりすることで)。 この領域の従来からのアプローチは、リソース集約的かつ非効率な、特定の編集モデルをゼロから訓練する必要性によって制約されてきた。 Instruct-MusicGenは、事前訓練されたMusicGenモデルを微調整し、茎の追加、削除、分離といった編集命令を効率的に追従する新しいアプローチである。 提案手法では,テキスト融合モジュールとオーディオ融合モジュールを組み込むことで,オリジナルのMusicGenアーキテクチャを改良し,命令文と音声入力を同時に処理し,所望の編集音楽を出力する。 注目すべきなのは、Instruct-MusicGenはオリジナルのMusicGenモデルに8%の新しいパラメータのみを導入し、5Kステップのみをトレーニングするが、既存のベースラインと比較してすべてのタスクで優れたパフォーマンスを実現し、特定のタスクのためにトレーニングされたモデルに匹敵するパフォーマンスを示す。 この進歩は、テキスト間編集の効率を向上するだけでなく、動的音楽制作環境における音楽言語モデルの適用性も拡大する。

Recent advances in text-to-music editing, which employ text queries to modify music (e.g.\ by changing its style or adjusting instrumental components), present unique challenges and opportunities for AI-assisted music creation. Previous approaches in this domain have been constrained by the necessity to train specific editing models from scratch, which is both resource-intensive and inefficient; other research uses large language models to predict edited music, resulting in imprecise audio reconstruction. To Combine the strengths and address these limitations, we introduce Instruct-MusicGen, a novel approach that finetunes a pretrained MusicGen model to efficiently follow editing instructions such as adding, removing, or separating stems. Our approach involves a modification of the original MusicGen architecture by incorporating a text fusion module and an audio fusion module, which allow the model to process instruction texts and audio inputs concurrently and yield the desired edited music. Remarkably, Instruct-MusicGen only introduces 8% new parameters to the original MusicGen model and only trains for 5K steps, yet it achieves superior performance across all tasks compared to existing baselines, and demonstrates performance comparable to the models trained for specific tasks. This advancement not only enhances the efficiency of text-to-music editing but also broadens the applicability of music language models in dynamic music production environments.
翻訳日:2024-05-29 17:20:57 公開日:2024-05-28
# COVID-19パンデミック時のリアルタイムマスク検出のためのオブジェクト検出モデルと最適化のレビューと実装

A Review and Implementation of Object Detection Models and Optimizations for Real-time Medical Mask Detection during the COVID-19 Pandemic ( http://arxiv.org/abs/2405.18387v1 )

ライセンス: Link先を確認
Ioanna Gogou, Dimitrios Koutsomitropoulos, (参考訳) 畳み込みニューラルネットワーク(CNN)は、その精度の向上により、オブジェクト検出の問題に一般的に使用される。 しかし,検出速度を考慮した場合,CNNに基づく検出モデルの性能は不明瞭である。 我々の知る限り、関連文献の速度/精度トレードオフの観点からは、利用可能な方法の十分な評価が得られていない。 この研究は、このトレードオフ、メモリ消費、計算とストレージコストに関して、Common Objects in Context(COCO)データセット上の最も基本的なオブジェクト検出モデルを評価する。 次に,医療マスクを用いた人物顔の話題的・未探索データセットのトレーニング,PWMFD(Properly-Wearing Masked Faces Dataset),およびリアルタイム医療マスク検出のための特定の最適化手法の利点を分析するために,YOLOv5と呼ばれる高効率モデルを選択した。 COVID-19パンデミックの文脈で得られた知見を用いて, 平均精度(67%)を維持しつつ, PWMFDデータセット上の2倍以上の速度(69フレーム/秒)を超える医療マスクの検出に, 転送学習を用いたYOLOv5sに基づく最適化モデルを提案する。

Convolutional Neural Networks (CNN) are commonly used for the problem of object detection thanks to their increased accuracy. Nevertheless, the performance of CNN-based detection models is ambiguous when detection speed is considered. To the best of our knowledge, there has not been sufficient evaluation of the available methods in terms of the speed/accuracy trade-off in related literature. This work assesses the most fundamental object detection models on the Common Objects in Context (COCO) dataset with respect to this trade-off, their memory consumption, and computational and storage cost. Next, we select a highly efficient model called YOLOv5 to train on the topical and unexplored dataset of human faces with medical masks, the Properly-Wearing Masked Faces Dataset (PWMFD), and analyze the benefits of specific optimization techniques for real-time medical mask detection: transfer learning, data augmentations, and a Squeeze-and-Excitation attention mechanism. Using our findings in the context of the COVID-19 pandemic, we propose an optimized model based on YOLOv5s using transfer learning for the detection of correctly and incorrectly worn medical masks that surpassed more than two times in speed (69 frames per second) the state-of-the-art model SE-YOLOv3 on the PWMFD dataset while maintaining the same level of mean Average Precision (67%).
翻訳日:2024-05-29 17:20:57 公開日:2024-05-28
# 厳格なトレーニング期間を超えたスケーリング法とコンピュータ・最適トレーニング

Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations ( http://arxiv.org/abs/2405.18392v1 )

ライセンス: Link先を確認
Alexander Hägele, Elie Bakouch, Atli Kosson, Loubna Ben Allal, Leandro Von Werra, Martin Jaggi, (参考訳) スケールは強力な機械学習モデルを得る上で重要な要素となっている。 結果として、モデルのスケーリング特性を理解することは、適切なトレーニング設定と将来の世代のアーキテクチャの両方を効果的に設計するための鍵となります。 本研究では,コサインスケジュールに依存するため,スケールとトレーニング研究は必然的に複雑であり,同じモデルサイズで異なる長さのトレーニングを行うことが不可能である,と論じる。 そこで本研究では,コサインと予測可能かつ確実に類似したスケールが可能であることを確認する。 さらに, 確率的重み付けにより, 異なるスケールでのトレーニングコストを伴わずに, トレーニング軌道に沿った性能が向上することを示した。 これらの結果から,再利用可能なトレーニングの実行を減らし,計算時間とGPU時間を大幅に短縮したスケーリング実験を実施できることが示唆された。

Scale has become a main ingredient in obtaining strong machine learning models. As a result, understanding a model's scaling properties is key to effectively designing both the right training setup as well as future generations of architectures. In this work, we argue that scale and training research has been needlessly complex due to reliance on the cosine schedule, which prevents training across different lengths for the same model size. We investigate the training behavior of a direct alternative - constant learning rate and cooldowns - and find that it scales predictably and reliably similar to cosine. Additionally, we show that stochastic weight averaging yields improved performance along the training trajectory, without additional training costs, across different scales. Importantly, with these findings we demonstrate that scaling experiments can be performed with significantly reduced compute and GPU hours by utilizing fewer but reusable training runs.
翻訳日:2024-05-29 17:20:57 公開日:2024-05-28
# MC-GTA:自己相関による適合性テストを用いたメトリック制約付きモデルベースクラスタリング

MC-GTA: Metric-Constrained Model-Based Clustering using Goodness-of-fit Tests with Autocorrelations ( http://arxiv.org/abs/2405.18395v1 )

ライセンス: Link先を確認
Zhangyu Wang, Gengchen Mai, Krzysztof Janowicz, Ni Lao, (参考訳) 車両センサトラジェクトリをグループ化するなど、幅広い時間(1D)および空間(2D)データ解析タスクを、所定の距離制約付きクラスタリングとして定式化することができる。 既存のメートル法制約クラスタリングアルゴリズムは、特徴類似性とメートル法距離のリッチな相関、すなわちメートル法自己相関を見落としている。 これらのクラスタリングアルゴリズムのモデルに基づくバリエーション(TICCやSTICCなど)は、SOTA性能を実現するが、メトリック制約された期待-最大化手順を用いることで、計算不安定性と複雑性に悩まされる。 これら2つの問題に対処するために, MC-GTA (Model-based Clustering via Goodness-of-fit Tests with Autocorrelations)を提案する。 その目的は、特徴類似項(二乗ワッサーシュタイン2距離)とメートル法自己相関項(古典半多様体の新しい多変量一般化)の対重み付き和からなる。 MC-GTAは、クラスタ内観測ペアが適合性試験をパスしない場合、すなわち、統計的に同じ分布から発生しない場合のヒンジ損失を効果的に最小化していることを示す。 1D/2D合成および実世界のデータセットの実験は、MC-GTAがメートル法自己相関をうまく組み込むことを示した。 ARIでは14.3%、NMIでは32.1%という大きなマージンで、より高速で安定した最適化(>10倍のスピードアップ)を達成している。

A wide range of (multivariate) temporal (1D) and spatial (2D) data analysis tasks, such as grouping vehicle sensor trajectories, can be formulated as clustering with given metric constraints. Existing metric-constrained clustering algorithms overlook the rich correlation between feature similarity and metric distance, i.e., metric autocorrelation. The model-based variations of these clustering algorithms (e.g. TICC and STICC) achieve SOTA performance, yet suffer from computational instability and complexity by using a metric-constrained Expectation-Maximization procedure. In order to address these two problems, we propose a novel clustering algorithm, MC-GTA (Model-based Clustering via Goodness-of-fit Tests with Autocorrelations). Its objective is only composed of pairwise weighted sums of feature similarity terms (square Wasserstein-2 distance) and metric autocorrelation terms (a novel multivariate generalization of classic semivariogram). We show that MC-GTA is effectively minimizing the total hinge loss for intra-cluster observation pairs not passing goodness-of-fit tests, i.e., statistically not originating from the same distribution. Experiments on 1D/2D synthetic and real-world datasets demonstrate that MC-GTA successfully incorporates metric autocorrelation. It outperforms strong baselines by large margins (up to 14.3% in ARI and 32.1% in NMI) with faster and stabler optimization (>10x speedup).
翻訳日:2024-05-29 17:20:57 公開日:2024-05-28
# Superposed Decoding: 単一自己回帰推論パスからの複数の生成

Superposed Decoding: Multiple Generations from a Single Autoregressive Inference Pass ( http://arxiv.org/abs/2405.18400v1 )

ライセンス: Link先を確認
Ethan Shen, Alan Fan, Sarah M Pratt, Jae Sung Park, Matthew Wallingford, Sham M. Kakade, Ari Holtzman, Ranjay Krishna, Ali Farhadi, Aditya Kusupati, (参考訳) 現在の多くのアプリケーションは、GitHubのコード補完、Gmailのスマートコンポジション、Appleのメッセージ自動提案など、複数の自動補完ドラフトをタイプしてユーザに提供している。 内部的には、言語モデルは、ドラフトを提供するために自動回帰推論パスを実行することで、これをサポートする。 したがって、ユーザに$k$のドラフトを提供するには、高価な言語モデルを実行する必要がある。 我々は,$k$の推論パスを実行する際の計算コストを軽減するために,自動回帰推論パスの計算コストで$k$のドラフトを生成する新しい復号アルゴリズムであるSuperposed Decodingを提案する。 我々は、言語モデルの次のデコードステップへの入力として、ドラフトから$k$の最新のトークン埋め込みの重ね合わせを入力して、これを実現する。 すべての推論ステップにおいて、$k$ドラフトと上位$k$トークンを組み合わせて$k^2$新しいドラフトを取得し、最も可能性の高いオプションをキャッシュします。 我々の実験によると、Superposed Decodingの$k$ドラフトは、少なくとも$k\ge3$で$2.44\times$よりも高速で、Nucleus SmplingやGreedy Decodingと同等の一貫性と現実性を持っている。 計算正規化設定では、ユーザ評価は、Nucleus SmplingよりもSuperposed Decodingによって生成されるテキストを明らかに好んでいる。 コードやその他の例はhttps://github.com/RAIVNLab/SuperposedDecodingで公開されている。

Many applications today provide users with multiple auto-complete drafts as they type, including GitHub's code completion, Gmail's smart compose, and Apple's messaging auto-suggestions. Under the hood, language models support this by running an autoregressive inference pass to provide a draft. Consequently, providing $k$ drafts to the user requires running an expensive language model $k$ times. To alleviate the computation cost of running $k$ inference passes, we propose Superposed Decoding, a new decoding algorithm that generates $k$ drafts at the computation cost of one autoregressive inference pass. We achieve this by feeding a superposition of the $k$ most recent token embeddings from the drafts as input to the next decoding step of the language model. At every inference step we combine the $k$ drafts with the top-$k$ tokens to get $k^2$ new drafts and cache the $k$ most likely options, using an n-gram interpolation with minimal compute overhead to filter out incoherent generations. Our experiments show that $k$ drafts from Superposed Decoding are at least as coherent and factual as Nucleus Sampling and Greedy Decoding respectively, while being at least $2.44\times$ faster for $k\ge3$. In a compute-normalized setting, user evaluations demonstrably favor text generated by Superposed Decoding over Nucleus Sampling. Code and more examples open-sourced at https://github.com/RAIVNLab/SuperposedDecoding.
翻訳日:2024-05-29 17:20:57 公開日:2024-05-28
# Inversive Geometry を用いた超平面とハイパーボールの相互利用

Explicit Formulae to Interchangeably use Hyperplanes and Hyperballs using Inversive Geometry ( http://arxiv.org/abs/2405.18401v1 )

ライセンス: Link先を確認
Erik Thordsen, Erich Schubert, (参考訳) 多くのアルゴリズムは、超平面や超球を分離したり、球面データを扱うように特別に設計されたりするなど、差別的境界を必要とする。 逆幾何学を適用することにより、2つの識別境界を相互に利用でき、点距離の変化が許容されるたびに、一般的なユークリッドデータを球形データに変換することができることを示す。 我々は、一般的なユークリッドデータを球形データに埋め込んで、それを埋め込むための明示的な公式を提供する。 さらに、球面上の超平面の分離によって生成された体積と、球面上の超平面の双対性を示す。 さらに、内部積と二つの空間の間のユークリッド距離を変換し、明示的な埋め込みや非埋め込みを避けるための方程式を提供する。 また、一般ユークリッド空間を半超球面に投影する手法を提案し、「全目的」パラメータを得るための本質的な次元に基づく手法を提案する。 キャップボール双対性の有用性を示すために,機械学習とベクトル類似性探索の例について論じる。

Many algorithms require discriminative boundaries, such as separating hyperplanes or hyperballs, or are specifically designed to work on spherical data. By applying inversive geometry, we show that the two discriminative boundaries can be used interchangeably, and that general Euclidean data can be transformed into spherical data, whenever a change in point distances is acceptable. We provide explicit formulae to embed general Euclidean data into spherical data and to unembed it back. We further show a duality between hyperspherical caps, i.e., the volume created by a separating hyperplane on spherical data, and hyperballs and provide explicit formulae to map between the two. We further provide equations to translate inner products and Euclidean distances between the two spaces, to avoid explicit embedding and unembedding. We also provide a method to enforce projections of the general Euclidean space onto hemi-hyperspheres and propose an intrinsic dimensionality based method to obtain "all-purpose" parameters. To show the usefulness of the cap-ball-duality, we discuss example applications in machine learning and vector similarity search.
翻訳日:2024-05-29 17:20:57 公開日:2024-05-28
# 最適局所測定による分散量子マルチパラメータ推定

Distributed quantum multiparameter estimation with optimal local measurements ( http://arxiv.org/abs/2405.18404v1 )

ライセンス: Link先を確認
Luca Pezzè, Augusto Smerzi, (参考訳) 空間分布型マッハ・ツェンダー干渉計(MZIs)によるセンサのマルチパラメータ感度境界について検討した。 一般的な単一の古典的でない状態は、$d-1$真空と混合して$d$-modes 絡み合った状態を生成し、各モードはMZIの入力ポートに入るが、コヒーレント状態はその第2ポートに入る。 それぞれのMZI上で独立に行う局所的な測定は、量子Cram\'er-Rao境界を飽和させる感度を与えるのに十分であることを示す。 センサは、古典的でないプローブ状態が逆2次分散を有することを条件として、$d$位相シフトの任意の線形結合を推定するためのショットノイズ限界を克服することができる。 このセンサの感度境界を$d$の独立MZIと比較し、それぞれが非古典的状態とコヒーレントな状態で探索する。 我々は、$d$独立干渉計は、絡み合ったプロトコルの同じ感度を実現することができるが、1つではなく、$d$非古典的状態を使用するコストがかかることを見出した。 2つのプロトコルにおいて、ショット当たりの平均粒子数が$\bar{n}_T$と同じである場合、感度が$d/\bar{n}_T^2$となる分離可能なケースに対して、利得係数が$d$となるエンタングルドケースに対して、分析的に1/\bar{n}_T^2$をスケーリングする。 粒子の総平均数,すなわち繰り返し測定数に関して最適化する場合に,ゲイン係数$d$も得られるという数値的な証拠がある。

We study the multiparameter sensitivity bounds of a sensor made by an array of $d$ spatially-distributed Mach-Zehnder interferometers (MZIs). A generic single non-classical state is mixed with $d-1$ vacuums to create a $d$-modes entangled state, each mode entering one input port of a MZI, while a coherent state enters its second port. We show that local measurements, independently performed on each MZI, are sufficient to provide a sensitivity saturating the quantum Cram\'er-Rao bound. The sensor can overcome the shot noise limit for the estimation of arbitrary linear combinations of the $d$ phase shifts, provided that the non-classical probe state has an anti-squeezed quadrature variance. We compare the sensitivity bounds of this sensor with that achievable with $d$ independent MZIs, each probed with a nonclassical state and a coherent state. We find that the $d$ independent interferometers can achieve the same sensitivity of the entangled protocol but at the cost of using additional $d$ non-classical states rather than a single one. When using in the two protocols the same average number of particles per shot $\bar{n}_T$, we find analytically a sensitivity scaling $1/\bar{n}_T^2$ for the entangled case which provides a gain factor $d$ with respect to the separable case where the sensitivity scales as $d/\bar{n}_T^2$. We have numerical evidences that the gain factor $d$ is also obtained when fixing the total average number of particles, namely when optimizing with respect to the number of repeated measurements.
翻訳日:2024-05-29 17:20:57 公開日:2024-05-28
# WIDIn:単一ソース領域一般化におけるドメイン不変表現のためのワードイメージ

WIDIn: Wording Image for Domain-Invariant Representation in Single-Source Domain Generalization ( http://arxiv.org/abs/2405.18405v1 )

ライセンス: Link先を確認
Jiawei Ma, Yulei Niu, Shiyuan Huang, Guangxing Han, Shih-Fu Chang, (参考訳) 言語は、訓練領域で経験的な発見をすることなく、様々な分布のデータにビジョンエンコーダを拡張するのに有用である。 しかし、画像記述は主に粗粒度であり、視覚的詳細を無視するので、その結果の埋め込みは推論時にドメインの複雑さを克服するのに依然として効果がない。 本稿では,ドメイン不変表現のためのワード画像であるWIDInを,単一のドメイン内のデータのみを活用して,テスト前のデータのみを活用することで,識別的視覚表現を歪めるためのフレームワークとして提示する。 具体的には、各画像に対して、まず、細粒度アライメントによる言語埋め込みを推定し、その結果、適応的に識別し、元の視覚埋め込みからドメイン固有の言語を除去することができる。 WIDInはCLIPのような事前訓練された視覚言語モデルにも適用でき、MoCoやBERTのような個別に訓練されたユニモーダルモデルにも適用できる。 3つの領域一般化データセットの実験的研究により,本手法の有効性が示された。

Language has been useful in extending the vision encoder to data from diverse distributions without empirical discovery in training domains. However, as the image description is mostly at coarse-grained level and ignores visual details, the resulted embeddings are still ineffective in overcoming complexity of domains at inference time. We present a self-supervision framework WIDIn, Wording Images for Domain-Invariant representation, to disentangle discriminative visual representation, by only leveraging data in a single domain and without any test prior. Specifically, for each image, we first estimate the language embedding with fine-grained alignment, which can be consequently used to adaptively identify and then remove domain-specific counterpart from the raw visual embedding. WIDIn can be applied to both pretrained vision-language models like CLIP, and separately trained uni-modal models like MoCo and BERT. Experimental studies on three domain generalization datasets demonstrate the effectiveness of our approach.
翻訳日:2024-05-29 17:20:57 公開日:2024-05-28
# RACCooN: 自動生成ナラティブによるビデオコンテンツの削除、追加、変更

RACCooN: Remove, Add, and Change Video Content with Auto-Generated Narratives ( http://arxiv.org/abs/2405.18406v1 )

ライセンス: Link先を確認
Jaehong Yoon, Shoubin Yu, Mohit Bansal, (参考訳) 最近のビデオ生成モデルは、主にインペイントやスタイル編集のような特定のタスクのために、注意深く書かれたテキストプロンプトに依存している。 インプットビデオには労働集約的なテキスト記述が必要で、個人/生のビデオのユーザ仕様への適応の柔軟性を損なう。 本稿では,RACCooNを提案する。RACCooNは汎用的でユーザフレンドリなビデオ-パラグラフ-ビデオ合成フレームワークで,複数のビデオ編集機能(削除,追加,修正など)をサポートする。 RACCooNは、V2P(Video-to-Paragraph)とP2V(Paragraph-to-Video)の2つの主要ステージで構成されている。 V2Pの段階では、ビデオシーンを構造化された自然言語で自動的に記述し、全体的コンテキストと焦点を絞ったオブジェクトの詳細の両方をキャプチャする。 その後、P2Vの段階では、ユーザーはこれらの記述を任意に洗練してビデオ拡散モデルをガイドし、被写体を取り除いたり、変更したり、新しいオブジェクトを追加したりして、入力ビデオに様々な変更を加えることができる。 1)RACCooNは、構造化されたビデオ記述を生成するための多言語時空間プーリング戦略を提案し、複雑な人間のアノテーションを必要とせず、広義のコンテキストとオブジェクトの詳細の両方をキャプチャし、ユーザのテキストに基づいた正確なビデオコンテンツ編集を簡素化する。 2)ビデオ生成モデルは,自動生成した物語や指示を取り入れ,生成したコンテンツの質と精度を高める。 既存のビデオ編集やインパインティングベンチマークを超越した、統合されたフレームワーク内でのビデオオブジェクトの追加、インパインティング、属性修正をサポートする。 提案フレームワークは,ビデオ・パラグラフ生成,映像コンテンツ編集において優れた多機能性を示し,さらに拡張するために他のSoTAビデオ生成モデルに組み込むことができる。

Recent video generative models primarily rely on carefully written text prompts for specific tasks, like inpainting or style editing. They require labor-intensive textual descriptions for input videos, hindering their flexibility to adapt personal/raw videos to user specifications. This paper proposes RACCooN, a versatile and user-friendly video-to-paragraph-to-video generative framework that supports multiple video editing capabilities such as removal, addition, and modification, through a unified pipeline. RACCooN consists of two principal stages: Video-to-Paragraph (V2P) and Paragraph-to-Video (P2V). In the V2P stage, we automatically describe video scenes in well-structured natural language, capturing both the holistic context and focused object details. Subsequently, in the P2V stage, users can optionally refine these descriptions to guide the video diffusion model, enabling various modifications to the input video, such as removing, changing subjects, and/or adding new objects. The proposed approach stands out from other methods through several significant contributions: (1) RACCooN suggests a multi-granular spatiotemporal pooling strategy to generate well-structured video descriptions, capturing both the broad context and object details without requiring complex human annotations, simplifying precise video content editing based on text for users. (2) Our video generative model incorporates auto-generated narratives or instructions to enhance the quality and accuracy of the generated content. It supports the addition of video objects, inpainting, and attribute modification within a unified framework, surpassing existing video editing and inpainting benchmarks. The proposed framework demonstrates impressive versatile capabilities in video-to-paragraph generation, video content editing, and can be incorporated into other SoTA video generative models for further enhancement.
翻訳日:2024-05-29 17:20:57 公開日:2024-05-28
# Phased Consistency Model

Phased Consistency Model ( http://arxiv.org/abs/2405.18407v1 )

ライセンス: Link先を確認
Fu-Yun Wang, Zhaoyang Huang, Alexander William Bergman, Dazhong Shen, Peng Gao, Michael Lingelbach, Keqiang Sun, Weikang Bian, Guanglu Song, Yu Liu, Hongsheng Li, Xiaogang Wang, (参考訳) 一貫性モデル(CM)は近年,拡散モデルの生成促進に大きく進展している。 しかし、遅延空間(LCM)における高解像度のテキスト条件画像生成への応用は、未だに不十分である。 本稿では,LCMの現在の設計における3つの重要な欠陥を同定する。 これらの制約の背後にある理由を考察し、設計空間を一般化し、特定されたすべての制限に対処する位相整合モデル(PCM)を提案する。 評価の結果,PCMは1段階から16段階のステップ生成設定でLCMを著しく上回っていることがわかった。 PCMはマルチステップの改良のために特別に設計されているが、従来は最先端の1ステップで設計されていた方法よりも優れた、あるいは同等の1ステップ生成結果が得られる。 さらに,PCMの手法がビデオ生成に適用可能であることを示し,最先端のテキスト・ツー・ビデオ・ジェネレータを訓練することができることを示した。 詳細はhttps://g-u-n.github.io/projects/pcm/で確認できる。

The consistency model (CM) has recently made significant progress in accelerating the generation of diffusion models. However, its application to high-resolution, text-conditioned image generation in the latent space (a.k.a., LCM) remains unsatisfactory. In this paper, we identify three key flaws in the current design of LCM. We investigate the reasons behind these limitations and propose the Phased Consistency Model (PCM), which generalizes the design space and addresses all identified limitations. Our evaluations demonstrate that PCM significantly outperforms LCM across 1--16 step generation settings. While PCM is specifically designed for multi-step refinement, it achieves even superior or comparable 1-step generation results to previously state-of-the-art specifically designed 1-step methods. Furthermore, we show that PCM's methodology is versatile and applicable to video generation, enabling us to train the state-of-the-art few-step text-to-video generator. More details are available at https://g-u-n.github.io/projects/pcm/.
翻訳日:2024-05-29 17:20:57 公開日:2024-05-28
# 相互接続型ノンシグナリング資源の整合性と因果性

Consistency and Causality of Interconnected Nonsignaling Resources ( http://arxiv.org/abs/2405.18408v1 )

ライセンス: Link先を確認
Peter Bierhorst, (参考訳) 本稿は, 独立系非署名リソースを局所的に共有する$m$$$n$のネットワークについて検討する。つまり, 各パーティは, 予め測定したリソースの出力に依存する可能性のある後続のリソースへの入力を, ケースケード方式で測定する方式に従う。 特定のフレームワークは、そのようなネットワークで生じる確率分布を研究するために提供され、このフレームワークは、いくつかの受け入れられるが、暗黙的にのみ呼び出される事実を直接証明するために使用される: 当事者が共有する全てのリソースの出力に対して、一意に決定され、明確に定義された合同確率分布が存在し、この共同分布は非署名的である。 さらに、そのようなネットワークの特徴や特性を考慮すると、極端に非署名的なリソースのみを考慮に入れるのに十分であることもしばしば示される。 最後に、このフレームワークは、非シグナリングボックスと局所配線の物理的理論がいかに因果関係であるかを示し、そのようなモデルを制約するインフレーション手法の適用性を支持する。 ある出願について、ローカル操作共有ランダム性の定義に従って、真の3つの非局所性を目撃する3,2,2の不平等の例を探索し、他のすべての例がMao et al [Phys. Rev. Lett. 129:150401 (2022)]の例からどのように導出されるかを示す。

This paper examines networks of $n$ measuring parties sharing $m$ independent nonsignaling resources that can be locally wired together: that is, each party follows a scheme to measure the resources in a cascaded fashion with inputs to later resources possibly depending on outputs of earlier-measured ones. A specific framework is provided for studying probability distributions arising in such networks, and this framework is used to directly prove some accepted, but often only implicitly invoked, facts: there is a uniquely determined and well-defined joint probability distribution for the outputs of all resources shared by the parties, and this joint distribution is nonsignaling. It is furthermore shown that is often sufficient to restrict consideration to only extremal nonsignaling resources when considering features and properties of such networks. Finally, the framework illustrates how the physical theory of nonsignaling boxes and local wirings is causal, supporting the applicability of the inflation technique to constrain such models. For an application, we probe the example of (3,2,2) inequalities that witness genuine three-party nonlocality according to the local-operations-shared-randomness definition, and show how all other examples can be derived from that of Mao et al. [Phys. Rev. Lett. 129:150401 (2022)]
翻訳日:2024-05-29 17:11:13 公開日:2024-05-28
# 入射ニューラル表現のサンプリング理論に向けて

Towards a Sampling Theory for Implicit Neural Representations ( http://arxiv.org/abs/2405.18410v1 )

ライセンス: Link先を確認
Mahrokh Najaf, Gregory Ongie, (参考訳) Inlicit Neural representations (INR) はコンピュータビジョンと計算画像における逆問題を解決する強力なツールとして登場した。 INRはイメージを、空間座標を入力とするニューラルネットワークによって実現された連続的なドメイン関数として表現する。 しかし、従来の画素表現とは異なり、線形逆問題におけるINRを用いた画像推定の複雑さについてはほとんど分かっていない。 そこで本研究では,ReLUアクティベートされた単一の隠蔽層INRとフーリエ特徴層を一般化した重み劣化正規化形式を用いて,低域フーリエ係数からの連続領域画像の復元のためのサンプリング条件について検討する。 我々の重要な洞察は、この非凸パラメータ空間最適化問題の最小化を、無限次元の測度空間上で定義される凸ペナルティの最小化に関連付けることである。 我々は、INRトレーニング問題を解くことで、幅-1 INRで実現された画像が正確に回復可能な十分なサンプルを同定し、一般的な幅$W$の場合の予想を与える。 本理論を実証するために,低幅単一隠蔽層INRにより実現された画像の正確な回復率を実証的に評価し,より現実的な連続領域ファントム画像の超解像回復におけるINRの性能を示す。

Implicit neural representations (INRs) have emerged as a powerful tool for solving inverse problems in computer vision and computational imaging. INRs represent images as continuous domain functions realized by a neural network taking spatial coordinates as inputs. However, unlike traditional pixel representations, little is known about the sample complexity of estimating images using INRs in the context of linear inverse problems. Towards this end, we study the sampling requirements for recovery of a continuous domain image from its low-pass Fourier coefficients by fitting a single hidden-layer INR with ReLU activation and a Fourier features layer using a generalized form of weight decay regularization. Our key insight is to relate minimizers of this non-convex parameter space optimization problem to minimizers of a convex penalty defined over an infinite-dimensional space of measures. We identify a sufficient number of samples for which an image realized by a width-1 INR is exactly recoverable by solving the INR training problem, and give a conjecture for the general width-$W$ case. To validate our theory, we empirically assess the probability of achieving exact recovery of images realized by low-width single hidden-layer INRs, and illustrate the performance of INR on super-resolution recovery of more realistic continuous domain phantom images.
翻訳日:2024-05-29 17:11:13 公開日:2024-05-28
# 高次元データ解析におけるテンソル法--可能性と課題

Tensor Methods in High Dimensional Data Analysis: Opportunities and Challenges ( http://arxiv.org/abs/2405.18412v1 )

ライセンス: Link先を確認
Arnab Auddy, Dong Xia, Ming Yuan, (参考訳) マルチウェイアレイやテンソルで表される多次元データは、化学、ゲノミクス、物理学、心理学、信号処理などの様々な分野にまたがる現代の応用で広く使われている。 このようなデータの構造的複雑さは、モデリングと分析のための大きな新しい機会を提供するが、統計的にも計算的にも、それらから情報コンテンツを効率的に抽出することは、独特で根本的な課題をもたらす。 これらの課題に対処するには、統計学、最適化、数値線形代数などの分野からツールと洞察をまとめる学際的なアプローチが必要である。 これらのハードルにもかかわらず、この10年で大きな進歩を遂げた。 このレビューでは、いくつかの重要な進歩を調べ、その中の共通スレッドを8つの異なる統計的設定の下で識別する。

Large amount of multidimensional data represented by multiway arrays or tensors are prevalent in modern applications across various fields such as chemometrics, genomics, physics, psychology, and signal processing. The structural complexity of such data provides vast new opportunities for modeling and analysis, but efficiently extracting information content from them, both statistically and computationally, presents unique and fundamental challenges. Addressing these challenges requires an interdisciplinary approach that brings together tools and insights from statistics, optimization and numerical linear algebra among other fields. Despite these hurdles, significant progress has been made in the last decade. This review seeks to examine some of the key advancements and identify common threads among them, under eight different statistical settings.
翻訳日:2024-05-29 17:11:13 公開日:2024-05-28
# 接続を忘れるな! グラフベースのリグレードによるRAGの改善

Don't Forget to Connect! Improving RAG with Graph-based Reranking ( http://arxiv.org/abs/2405.18414v1 )

ライセンス: Link先を確認
Jialin Dong, Bahare Fatemi, Bryan Perozzi, Lin F. Yang, Anton Tsitsulin, (参考訳) Retrieval Augmented Generation (RAG) は,既存の文書のコンテキストをベースとした生成を行うことで,Large Language Model (LLM) 応答の性能を大幅に向上させた。 これらのシステムは、文書が質問コンテキストに明確に関連している場合にうまく機能する。 しかし、ドキュメントに部分的な情報がある場合、あるいはコンテキストとの明らかなつながりがない場合はどうでしょう? ドキュメント間の関係をどう考えるべきか? 本稿では、RAG生成に関する2つの中核的な質問に答える。 本稿では,グラフニューラルネットワーク(GNN)に基づくリランカであるG-RAGについて紹介する。 提案手法は,文書と意味情報(抽象的意味表現グラフ)の両方を結合して,RAGの文脈インフォームドローダを提供する。 G-RAGは計算フットプリントを小さくしながら最先端のアプローチより優れている。 さらに,再ランカとしての PaLM 2 の性能を評価し,G-RAG を著しく低下させることを示した。 この結果は,大規模言語モデルを用いた場合においても,RAGの再ランク付けの重要性を強調している。

Retrieval Augmented Generation (RAG) has greatly improved the performance of Large Language Model (LLM) responses by grounding generation with context from existing documents. These systems work well when documents are clearly relevant to a question context. But what about when a document has partial information, or less obvious connections to the context? And how should we reason about connections between documents? In this work, we seek to answer these two core questions about RAG generation. We introduce G-RAG, a reranker based on graph neural networks (GNNs) between the retriever and reader in RAG. Our method combines both connections between documents and semantic information (via Abstract Meaning Representation graphs) to provide a context-informed ranker for RAG. G-RAG outperforms state-of-the-art approaches while having smaller computational footprint. Additionally, we assess the performance of PaLM 2 as a reranker and find it to significantly underperform G-RAG. This result emphasizes the importance of reranking for RAG even when using Large Language Models.
翻訳日:2024-05-29 17:11:13 公開日:2024-05-28
# ビジュアルグラウンド言語モデルはなぜ画像分類に悪いのか?

Why are Visually-Grounded Language Models Bad at Image Classification? ( http://arxiv.org/abs/2405.18415v1 )

ライセンス: Link先を確認
Yuhui Zhang, Alyssa Unell, Xiaohan Wang, Dhruba Ghosh, Yuchang Su, Ludwig Schmidt, Serena Yeung-Levy, (参考訳) 画像分類は、マシンビジョンインテリジェンスの最も基本的な能力の1つである。 本研究では,GPT-4V や LLaVA などの視覚的言語モデル (VLM) を用いて,画像分類タスクを再検討する。 既存のプロプライエタリかつパブリックなVLMは、ビジョンエンコーダとして頻繁にCLIPを使用し、多くのパラメータを持つにもかかわらず、ImageNetのような標準画像分類ベンチマークではCLIPを著しく性能が劣っている。 そこで本研究では,VLMにおける推論アルゴリズム,学習目標,データ処理に関するいくつかの仮説を考察する。 画像分類のための重要な情報は、VLMの潜在空間に符号化されるが、十分なトレーニングデータで効果的に復号化できる。 具体的には、VLMトレーニング中のクラス露出頻度と、これらのクラスにおけるVLMのパフォーマンスとの間には強い相関関係があり、十分なデータでトレーニングすると、VLMは最先端の分類モデルの精度と一致する。 これらの結果に基づき、分類中心のデータセットをトレーニングに組み込むことでVLMを強化し、VLM転送の分類性能が向上し、新たに収集したImageWikiQAデータセットの11.8%が向上したことを示す。

Image classification is one of the most fundamental capabilities of machine vision intelligence. In this work, we revisit the image classification task using visually-grounded language models (VLMs) such as GPT-4V and LLaVA. We find that existing proprietary and public VLMs, despite often using CLIP as a vision encoder and having many more parameters, significantly underperform CLIP on standard image classification benchmarks like ImageNet. To understand the reason, we explore several hypotheses concerning the inference algorithms, training objectives, and data processing in VLMs. Our analysis reveals that the primary cause is data-related: critical information for image classification is encoded in the VLM's latent space but can only be effectively decoded with enough training data. Specifically, there is a strong correlation between the frequency of class exposure during VLM training and instruction-tuning and the VLM's performance in those classes; when trained with sufficient data, VLMs can match the accuracy of state-of-the-art classification models. Based on these findings, we enhance a VLM by integrating classification-focused datasets into its training, and demonstrate that the enhanced classification performance of the VLM transfers to its general capabilities, resulting in an improvement of 11.8% on the newly collected ImageWikiQA dataset.
翻訳日:2024-05-29 17:11:13 公開日:2024-05-28
# セマンティック2DGSを用いた3Dストリートアンベイラー

3D StreetUnveiler with Semantic-Aware 2DGS ( http://arxiv.org/abs/2405.18416v1 )

ライセンス: Link先を確認
Jingwei Xu, Yikai Wang, Yiqun Zhao, Yanwei Fu, Shenghua Gao, (参考訳) 車載カメラが捉えた混雑した観察から空の道を開くことは、自動運転にとって非常に重要です。 しかし、停止した車や歩行者などの一時的な静的物体を全て取り除くことは大きな課題である。 小さなシーンで徹底的に観察するオブジェクト中心の3Dインペインティングとは異なり、ストリートシーンは以前の3Dインペインティングと異なる長い軌跡を含む。 撮影ビデオのカメラ中心の移動環境は、被写体観察の時間と程度に制限があるため、タスクをさらに複雑にする。 これらの障害に対処するため、空の道路を再建するためにStreetUnveilerを導入する。 StreetUnveilerは、混雑した観察から空の通りの3D表現を学習する。 我々の表現は、そのスケーラビリティと除去すべきガウスを識別する能力のために、2DGS (hard-label semantic 2D Gaussian Splatting) に基づいている。 不要なガウスを除去し,擬似ラベルを提供し,その後2DGSを再最適化した。 時間的連続的な動きを考慮し、空の街路シーンを観測された部分観測領域と観測されていない領域に分割し、レンダリングされたアルファマップを通して位置を特定することを提案する。 この分解は、塗装が必要な領域を最小化するのに役立ちます。 塗布の時間的一貫性を高めるため,フレームを逆順に塗布する新しい時間反転フレームワークを導入し,後続フレームを先行フレームの参照として使用し,長い軌道観測を十分に活用する。 本実験は,空き街路の3次元表現の再構築に成功している。 空の通りのメッシュ表現は、さらなる応用のために抽出することができる。 プロジェクトページとさらなる視覚化は、https://streetunveiler.github.io.comで見ることができる。

Unveiling an empty street from crowded observations captured by in-car cameras is crucial for autonomous driving. However, removing all temporary static objects, such as stopped vehicles and standing pedestrians, presents a significant challenge. Unlike object-centric 3D inpainting, which relies on thorough observation in a small scene, street scenes involve long trajectories that differ from previous 3D inpainting tasks. The camera-centric moving environment of captured videos further complicates the task due to the limited degree and time duration of object observation. To address these obstacles, we introduce StreetUnveiler to reconstruct an empty street. StreetUnveiler learns a 3D representation of the empty street from crowded observations. Our representation is based on the hard-label semantic 2D Gaussian Splatting (2DGS) for its scalability and ability to identify Gaussians to be removed. We inpaint rendered image after removing unwanted Gaussians to provide pseudo-labels and subsequently re-optimize the 2DGS. Given its temporal continuous movement, we divide the empty street scene into observed, partial-observed, and unobserved regions, which we propose to locate through a rendered alpha map. This decomposition helps us to minimize the regions that need to be inpainted. To enhance the temporal consistency of the inpainting, we introduce a novel time-reversal framework to inpaint frames in reverse order and use later frames as references for earlier frames to fully utilize the long-trajectory observations. Our experiments conducted on the street scene dataset successfully reconstructed a 3D representation of the empty street. The mesh representation of the empty street can be extracted for further applications. Project page and more visualizations can be found at: https://streetunveiler.github.io
翻訳日:2024-05-29 17:11:13 公開日:2024-05-28
# 物理学に着想を得た進化的機械学習法:シュレーディンガー方程式から軌道自由DFT運動エネルギー汎関数へ

A physics-inspired evolutionary machine learning method: from the Schrödinger equation to an orbital-free-DFT kinetic energy functional ( http://arxiv.org/abs/2405.18417v1 )

ライセンス: Link先を確認
Juan I. Rodriguez, Ulises A. Vergara-Beltran, (参考訳) 本稿では,物理の変動原理にインスパイアされた機械学習(ML)モデル関数を提案する。 このML仮説進化法はML-Omegaと呼ばれ、データから導出される物理的(化学、工学など)現象の根底にある微分方程式へと進むことができる。 物理学の基本方程式は、適切なトレーニングデータを提供する際に、このML-Omega進化法から導かれる。 ML-Omegaモデル関数を3つの水素様原子エネルギーで訓練することにより、シュリンガーの正確な機能を見つけ、そこからシュリンガーの基本方程式を求めることができる。 そして密度汎関数論(DFT)の分野において、モデル関数が既知のトーマス・フェルミの公式 E = -0.7687Z^7/3 からエネルギーで訓練されると、正確な TF 関数が正しく見つかる。 最後に、ガンマ-TF-ラムダ-vWモデルに基づいて、独立電子運動エネルギー汎関数Tsの局所軌道自由(OF)関数式を求める。 ML-Omega法は5つの原子(He, Be, Ne, Mg, Ar)の理論的エネルギーのみをトレーニング集合として考慮し、ML-Omega-OF-DFT局所Ts関数(gamma-TF-lambda-vW (0.964, 1/4))が代表群のすべてのOF-DFT関数より優れることを示した。 さらに, ML-Omega-OF関数は, LDAといくつかの局所GGA-DFT関数を克服し, 二原子分子の正しいスピン配置で伸張された結合領域を記述するのが困難である。 進化的ML-Omegaモデル関数は、記号回帰の技法を用いて、明示的な事前形式関数を使わずに機能するが、本研究では、事前形式関数式を利用して、トレーニングプロセスを高速化する。

We introduce a machine learning (ML) supervised model function that is inspired by the variational principle of physics. This ML hypothesis evolutionary method, termed ML-Omega, allows us to go from data to differential equation(s) underlying the physical (chemical, engineering, etc.) phenomena the data are derived from. The fundamental equations of physics can be derived from this ML-Omega evolutionary method when provided the proper training data. By training the ML-Omega model function with only three hydrogen-like atom energies, the method can find Schr\"odinger's exact functional and, from it, Schr\"odinger's fundamental equation. Then, in the field of density functional theory (DFT), when the model function is trained with the energies from the known Thomas-Fermi (TF) formula E = -0.7687Z^7/3, it correctly finds the exact TF functional. Finally, the method is applied to find a local orbital-free (OF) functional expression of the independent electron kinetic energy functional Ts based on the gamma-TF-lambda-vW model. By considering the theoretical energies of only 5 atoms (He, Be, Ne, Mg, Ar) as the training set, the evolutionary ML-Omega method finds an ML-Omega-OF-DFT local Ts functional (gamma-TF-lambda-vW (0.964, 1/4)) that outperforms all the OF- DFT functionals of a representative group. Moreover, our ML-Omega-OF functional overcomes the LDA's and some local GGA-DFT's functionals' difficulty to describe the stretched bond region at the correct spin configuration of diatomic molecules. Although our evolutionary ML-Omega model function can work without an explicit prior-form functional, by using the techniques of symbolic regression, in this work we exploit prior-form functional expressions to make the training process faster in the example problems presented here.
翻訳日:2024-05-29 17:11:13 公開日:2024-05-28
# 視覚的全身型ヒューマノイド制御系としての階層的世界モデル

Hierarchical World Models as Visual Whole-Body Humanoid Controllers ( http://arxiv.org/abs/2405.18418v1 )

ライセンス: Link先を確認
Nicklas Hansen, Jyothir S V, Vlad Sobal, Yann LeCun, Xiaolong Wang, Hao Su, (参考訳) ヒューマノイドの全身制御は、この問題の高次元的な性質と、二足歩行形態の固有の不安定性により困難である。 視覚的な観察から学ぶことで、この困難はさらに悪化する。 本研究では,強化学習に基づく視覚的全身ヒューマノイド制御に対するデータ駆動型アプローチを,仮定や報酬設計,スキルプリミティブを単純化することなく検討する。 具体的には、ハイレベルエージェントが実行すべき低レベルエージェントの視覚的観察に基づいてコマンドを生成する階層的世界モデルを提案する。 提案手法は, 56-DoFヒューマノイドを模擬した8つのタスクにおいて, ヒトに広く好まれる動作を合成しながら, 高い性能の制御ポリシーを生成する。 コードとビデオ:https://nicklashansen.com/rlpuppeteer

Whole-body control for humanoids is challenging due to the high-dimensional nature of the problem, coupled with the inherent instability of a bipedal morphology. Learning from visual observations further exacerbates this difficulty. In this work, we explore highly data-driven approaches to visual whole-body humanoid control based on reinforcement learning, without any simplifying assumptions, reward design, or skill primitives. Specifically, we propose a hierarchical world model in which a high-level agent generates commands based on visual observations for a low-level agent to execute, both of which are trained with rewards. Our approach produces highly performant control policies in 8 tasks with a simulated 56-DoF humanoid, while synthesizing motions that are broadly preferred by humans. Code and videos: https://nicklashansen.com/rlpuppeteer
翻訳日:2024-05-29 17:11:13 公開日:2024-05-28
# 3DitScene: 言語誘導の散らばったガウシアンスプレイティングであらゆるシーンを編集する

3DitScene: Editing Any Scene via Language-guided Disentangled Gaussian Splatting ( http://arxiv.org/abs/2405.18424v1 )

ライセンス: Link先を確認
Qihang Zhang, Yinghao Xu, Chaoyang Wang, Hsin-Ying Lee, Gordon Wetzstein, Bolei Zhou, Ceyuan Yang, (参考訳) シーン画像編集はエンターテイメント、写真、広告デザインに不可欠である。 既存の方法は、個々の2Dオブジェクトまたは3Dグローバルシーン編集にのみ焦点をあてる。 これにより、粒度の異なる3Dレベルのシーンを効果的に制御し、操作するための統一的なアプローチが欠如する。 本研究では,2次元から3次元へのシームレスな編集が可能で,シーン構成や個々のオブジェクトを正確に制御できる言語誘導型ガウス分割を利用した,新規で統一されたシーン編集フレームワークである3DitSceneを提案する。 まず,3次元ガウスを前駆的手法と最適化手法により改良した手法を取り入れた。 CLIPの言語機能は、オブジェクトの切り離しのための3D幾何学にセマンティクスを導入する。 3DitSceneは、散らばったガウシアンによって、グローバルレベルと個人のレベルでの操作を可能にし、創造的な表現を革新し、シーンやオブジェクトのコントロールを権限化します。 映像編集における3DitSceneの有効性と有効性を示す実験結果を得た。 コードとオンラインのデモはプロジェクトのホームページで見ることができる。

Scene image editing is crucial for entertainment, photography, and advertising design. Existing methods solely focus on either 2D individual object or 3D global scene editing. This results in a lack of a unified approach to effectively control and manipulate scenes at the 3D level with different levels of granularity. In this work, we propose 3DitScene, a novel and unified scene editing framework leveraging language-guided disentangled Gaussian Splatting that enables seamless editing from 2D to 3D, allowing precise control over scene composition and individual objects. We first incorporate 3D Gaussians that are refined through generative priors and optimization techniques. Language features from CLIP then introduce semantics into 3D geometry for object disentanglement. With the disentangled Gaussians, 3DitScene allows for manipulation at both the global and individual levels, revolutionizing creative expression and empowering control over scenes and objects. Experimental results demonstrate the effectiveness and versatility of 3DitScene in scene image editing. Code and online demo can be found at our project homepage: https://zqh0253.github.io/3DitScene/.
翻訳日:2024-05-29 17:11:13 公開日:2024-05-28
# ViG: Gated Linear Attention を用いた線形複雑視系列学習

ViG: Linear-complexity Visual Sequence Learning with Gated Linear Attention ( http://arxiv.org/abs/2405.18425v1 )

ライセンス: Link先を確認
Bencheng Liao, Xinggang Wang, Lianghui Zhu, Qian Zhang, Chang Huang, (参考訳) 近年、線形複雑性シーケンスモデリングネットワークは様々なコンピュータビジョンタスクにおいてビジョントランスフォーマーに似たモデリング機能を実現し、FLOPの削減とメモリの削減を実現している。 しかし、実際の実行速度という点では、その優位性は重要ではない。 この問題に対処するため、我々はGated Linear Attention (GLA) を導入し、その優れたハードウェア認識と効率を活用している。 本研究では,2次元グローバルコンテキストに2次元局所的詳細を適応的に注入するために,双方向モデリングと2次元ゲティング局所性注入により1次元グローバルコンテキストを捕捉する方向ワイドゲーティングを提案する。 我々のハードウェア対応実装は、さらに前方および後方のスキャンを単一のカーネルにマージし、並列性を高め、メモリコストとレイテンシを低減する。 提案したモデルである \name{} は、ImageNet や下流タスクにおける精度、パラメータ、FLOPのトレードオフを提供し、人気のある Transformer や CNN ベースのモデルより優れている。 特に、 \name{}-S は、パラメータの 27 % と FLOP の 20 % しか使用せずに、DeiT-B の精度と一致する。 1024\times 1024$の解像度で、 \name{}-Tは5.2$\times$より少ないFLOPを使用し、90\%のGPUメモリを節約し、4.8$\times$より高速に動作し、DeiT-Tより20.7\%高いトップ1精度を達成する。 これらの結果は,視覚表現学習のための効率的でスケーラブルなソリューションとして, \name{} を位置づけている。 コードは \url{https://github.com/hustvl/ViG} で入手できる。

Recently, linear complexity sequence modeling networks have achieved modeling capabilities similar to Vision Transformers on a variety of computer vision tasks, while using fewer FLOPs and less memory. However, their advantage in terms of actual runtime speed is not significant. To address this issue, we introduce Gated Linear Attention (GLA) for vision, leveraging its superior hardware-awareness and efficiency. We propose direction-wise gating to capture 1D global context through bidirectional modeling and a 2D gating locality injection to adaptively inject 2D local details into 1D global context. Our hardware-aware implementation further merges forward and backward scanning into a single kernel, enhancing parallelism and reducing memory cost and latency. The proposed model, \name{}, offers a favorable trade-off in accuracy, parameters, and FLOPs on ImageNet and downstream tasks, outperforming popular Transformer and CNN-based models. Notably, \name{}-S matches DeiT-B's accuracy while using only 27\% of the parameters and 20\% of the FLOPs, running 2$\times$ faster on $224\times224$ images. At $1024\times1024$ resolution, \name{}-T uses 5.2$\times$ fewer FLOPs, saves 90\% GPU memory, runs 4.8$\times$ faster, and achieves 20.7\% higher top-1 accuracy than DeiT-T. These results position \name{} as an efficient and scalable solution for visual representation learning. Code is available at \url{https://github.com/hustvl/ViG}.
翻訳日:2024-05-29 17:11:13 公開日:2024-05-28
# GFlow:モノクロ映像から4Dワールドを再現

GFlow: Recovering 4D World from Monocular Video ( http://arxiv.org/abs/2405.18426v1 )

ライセンス: Link先を確認
Shizun Wang, Xingyi Yang, Qiuhong Shen, Zhenxiang Jiang, Xinchao Wang, (参考訳) ビデオ入力から4Dシーンを再構築することは、非常に難しい課題だ。 従来の手法は通常、マルチビュービデオ入力、既知のカメラパラメータ、あるいは静的シーンの仮定に頼っている。 本稿では、これらの制約をすべて緩和し、AnyV4Dと呼ばれる非常に野心的で実用的な課題に取り組み、カメラパラメータを入力として1つのモノクロビデオしか利用できないと仮定し、カメラのポーズとともにダイナミックな4D世界を取り戻すことを目的としている。 この目的のために、GFlowは2次元の先行(深度と光学フロー)しか利用していない新しいフレームワークを導入し、4次元の明示的な表現にビデオ(3D)を持ち上げる。 GFlowはまずシーンを静止部分と移動部分にクラスタリングし、次に、カメラのポーズとシーンクラスタリングに基づく3Dガウス点のダイナミクスを最適化し、隣接するポイント間の忠実さとフレーム間の滑らかな移動を保証するシーケンシャルな最適化プロセスを適用する。 動的シーンには常に新しいコンテンツが導入されるため、ガウス点に対する新しいピクセルワイド・デンシフィケーション戦略を提案し、新しいビジュアルコンテンツを統合する。 さらに、GFlowは、単なる4D再構成の境界を超越し、事前のトレーニングや、教師なしの方法でオブジェクトをシーンから移動させるセグメントを必要とせずに、フレーム間の任意のポイントを追跡することができる。 さらに、各フレームのカメラポーズは、GFlowから導出することができ、カメラポーズを変更することで、ビデオシーンの新たなビューをレンダリングすることができる。 明示的な表現を用いることで、シーンレベルの編集やオブジェクトレベルの編集を必要に応じて容易に行うことができ、その汎用性とパワーを強調できる。 https://littlepure2333.github.io/GFlow

Reconstructing 4D scenes from video inputs is a crucial yet challenging task. Conventional methods usually rely on the assumptions of multi-view video inputs, known camera parameters, or static scenes, all of which are typically absent under in-the-wild scenarios. In this paper, we relax all these constraints and tackle a highly ambitious but practical task, which we termed as AnyV4D: we assume only one monocular video is available without any camera parameters as input, and we aim to recover the dynamic 4D world alongside the camera poses. To this end, we introduce GFlow, a new framework that utilizes only 2D priors (depth and optical flow) to lift a video (3D) to a 4D explicit representation, entailing a flow of Gaussian splatting through space and time. GFlow first clusters the scene into still and moving parts, then applies a sequential optimization process that optimizes camera poses and the dynamics of 3D Gaussian points based on 2D priors and scene clustering, ensuring fidelity among neighboring points and smooth movement across frames. Since dynamic scenes always introduce new content, we also propose a new pixel-wise densification strategy for Gaussian points to integrate new visual content. Moreover, GFlow transcends the boundaries of mere 4D reconstruction; it also enables tracking of any points across frames without the need for prior training and segments moving objects from the scene in an unsupervised way. Additionally, the camera poses of each frame can be derived from GFlow, allowing for rendering novel views of a video scene through changing camera pose. By employing the explicit representation, we may readily conduct scene-level or object-level editing as desired, underscoring its versatility and power. Visit our project website at: https://littlepure2333.github.io/GFlow
翻訳日:2024-05-29 17:11:13 公開日:2024-05-28
# 高次元における重なり合うガウス混合の分類:最適分類器からニューラルネットへ

Classifying Overlapping Gaussian Mixtures in High Dimensions: From Optimal Classifiers to Neural Nets ( http://arxiv.org/abs/2405.18427v1 )

ライセンス: Link先を確認
Khen Cohen, Noam Levi, Yaron Oz, (参考訳) 高次元重なり合うガウス混合モデル(GMM)データのバイナリ分類におけるベイズ最適決定境界に対する閉形式式を導出し、特に興味深い構造化データに対してクラス共分散の固有構造に依存するかを示す。 我々は、実世界のデータにインスパイアされた合成GMMの実験を通じて、分類のために訓練されたディープニューラルネットワークが、導出した最適な分類器を近似する予測器を学習することを実証的に実証した。 さらに、本研究は、固有値よりも共分散固有ベクトルと相関する決定しきい値が、GMM分析を反映して、認証データに基づいてトレーニングされたネットワークに拡張される。 このことは、確率論的推論を実行し、複雑な分布から統計的パターンを抽出するニューラルネットワークの能力に関する理論的洞察を与える。

We derive closed-form expressions for the Bayes optimal decision boundaries in binary classification of high dimensional overlapping Gaussian mixture model (GMM) data, and show how they depend on the eigenstructure of the class covariances, for particularly interesting structured data. We empirically demonstrate, through experiments on synthetic GMMs inspired by real-world data, that deep neural networks trained for classification, learn predictors which approximate the derived optimal classifiers. We further extend our study to networks trained on authentic data, observing that decision thresholds correlate with the covariance eigenvectors rather than the eigenvalues, mirroring our GMM analysis. This provides theoretical insights regarding neural networks' ability to perform probabilistic inference and distill statistical patterns from intricate distributions.
翻訳日:2024-05-29 17:11:13 公開日:2024-05-28
# DiG: Gated Linear Attention を用いたスケーラブルかつ効率的な拡散モデル

DiG: Scalable and Efficient Diffusion Models with Gated Linear Attention ( http://arxiv.org/abs/2405.18428v1 )

ライセンス: Link先を確認
Lianghui Zhu, Zilong Huang, Bencheng Liao, Jun Hao Liew, Hanshu Yan, Jiashi Feng, Xinggang Wang, (参考訳) 大規模な事前学習を伴う拡散モデルは、特に拡散変換器(DiT)で実証された視覚コンテンツ生成の分野で大きな成功を収めた。 しかし、DiTモデルはスケーラビリティと2次複雑性効率の課題に直面している。 本稿では, Gated Linear Attention (GLA) Transformer の長周期モデリング機能を活用し, 拡散モデルへの適用性を高めることを目的とする。 また,Diffusion Gated Linear Attention Transformers (DiG) を導入し,Diffusion Gated Linear Attention Transformers (DiG) を提案する。 DiTよりも優れたパフォーマンスに加えて、DiG-S/2はDiT-S/2よりも2.5\times$高いトレーニング速度を示し、1792ドルの解像度で75.7\%のGPUメモリを節約している。 さらに,多種多様な計算複雑性におけるDiGのスケーラビリティを解析する。 DiGモデルは、入力トークンの深さ/幅の増大や増大を伴うが、一貫してFIDの減少を示す。 さらに,DiGと他の準4次時間拡散モデルとの比較を行った。 同じモデルサイズで、DIG-XL/2は最近のMambaベースの拡散モデルより4.2\times$1024$で、CUDA最適化FlashAttention-2の2048$でDiTより1.8\times$速い。 これらの結果は, 最新の拡散モデルにおいて, 優れた効率性を示すものである。 コードはhttps://github.com/hustvl/DiG.comで公開されている。

Diffusion models with large-scale pre-training have achieved significant success in the field of visual content generation, particularly exemplified by Diffusion Transformers (DiT). However, DiT models have faced challenges with scalability and quadratic complexity efficiency. In this paper, we aim to leverage the long sequence modeling capability of Gated Linear Attention (GLA) Transformers, expanding its applicability to diffusion models. We introduce Diffusion Gated Linear Attention Transformers (DiG), a simple, adoptable solution with minimal parameter overhead, following the DiT design, but offering superior efficiency and effectiveness. In addition to better performance than DiT, DiG-S/2 exhibits $2.5\times$ higher training speed than DiT-S/2 and saves $75.7\%$ GPU memory at a resolution of $1792 \times 1792$. Moreover, we analyze the scalability of DiG across a variety of computational complexity. DiG models, with increased depth/width or augmentation of input tokens, consistently exhibit decreasing FID. We further compare DiG with other subquadratic-time diffusion models. With the same model size, DiG-XL/2 is $4.2\times$ faster than the recent Mamba-based diffusion model at a $1024$ resolution, and is $1.8\times$ faster than DiT with CUDA-optimized FlashAttention-2 under the $2048$ resolution. All these results demonstrate its superior efficiency among the latest diffusion models. Code is released at https://github.com/hustvl/DiG.
翻訳日:2024-05-29 17:11:13 公開日:2024-05-28
# ラマの起源--モデル樹木遺産の復元

On the Origin of Llamas: Model Tree Heritage Recovery ( http://arxiv.org/abs/2405.18432v1 )

ライセンス: Link先を確認
Eliahu Horwitz, Asaf Shul, Yedid Hoshen, (参考訳) インターネット上で共有されるニューラルネットワークモデルの急速な成長により、モデルの重み付けは重要なデータモダリティとなった。 しかし、重みは解釈不能であり、一般に利用可能なモデルは分解されるため、この情報は利用されていない。 ダーウィンの生命のツリーにインスパイアされたモデルツリーは、モデルの起源、すなわちターゲットモデルを微調整するために使われた親モデルを記述する。 自然界と同様に、木の構造は不明。 本稿では,ニューラルネットワークの宇宙におけるモデルツリー発見のためのモデルツリー復元(MoTHer Recovery)の課題を紹介する。 我々の仮説では、モデルウェイトがこの情報を符号化し、ウェイトを考慮すれば、基盤となるツリー構造をデコードすることが課題である。 モデルオーサシップ属性の直接的な適用以外にも、MoTHerリカバリは、検索エンジンによるインターネットのインデックス化に似た、エキサイティングな長期的アプリケーションを提供している。 実際、それぞれのモデルに対して、このタスクは以下のとおりである。 一 関連があるか否か、及び 二 関係の方向性を確立すること。 トレーニング中に重みのある分布特性が単調に進化し、2つのモデル間の関係を分類できることがわかった。 MoTHerリカバリは、教師付きツリーで表されるモデル階層全体を再構築する。 提案手法は,Llama 2やStable Diffusionなどの"in-the-wild"モデルファミリーの構造だけでなく,複雑なモデルツリーの再構築に成功している。

The rapid growth of neural network models shared on the internet has made model weights an important data modality. However, this information is underutilized as the weights are uninterpretable, and publicly available models are disorganized. Inspired by Darwin's tree of life, we define the Model Tree which describes the origin of models i.e., the parent model that was used to fine-tune the target model. Similarly to the natural world, the tree structure is unknown. In this paper, we introduce the task of Model Tree Heritage Recovery (MoTHer Recovery) for discovering Model Trees in the ever-growing universe of neural networks. Our hypothesis is that model weights encode this information, the challenge is to decode the underlying tree structure given the weights. Beyond the immediate application of model authorship attribution, MoTHer recovery holds exciting long-term applications akin to indexing the internet by search engines. Practically, for each pair of models, this task requires: i) determining if they are related, and ii) establishing the direction of the relationship. We find that certain distributional properties of the weights evolve monotonically during training, which enables us to classify the relationship between two given models. MoTHer recovery reconstructs entire model hierarchies, represented by a directed tree, where a parent model gives rise to multiple child models through additional training. Our approach successfully reconstructs complex Model Trees, as well as the structure of "in-the-wild" model families such as Llama 2 and Stable Diffusion.
翻訳日:2024-05-29 17:11:13 公開日:2024-05-28
# 文書理解へのGPT-4の適用性について

Notes on Applicability of GPT-4 to Document Understanding ( http://arxiv.org/abs/2405.18433v1 )

ライセンス: Link先を確認
Łukasz Borchmann, (参考訳) テキストの空間的配置や視覚的手がかりをテキスト意味論に加えて理解することがしばしば必要となる文書理解領域に関する,すべての公開可能なGPT-4ファミリーモデルの欠落した再現可能な評価を行う。 GPT-4 Vision Turboは,外部のOCRエンジンで認識されたテキストと入力上の文書イメージの両方を提供する場合,テキストのみのモデルでは良好な結果が得られない。 テキストGPT-4モデルの汚染の可能性を示唆する分析結果と,文書の長大な性能低下を示す分析結果が続く。

We perform a missing, reproducible evaluation of all publicly available GPT-4 family models concerning the Document Understanding field, where it is frequently required to comprehend text spacial arrangement and visual clues in addition to textual semantics. Benchmark results indicate that though it is hard to achieve satisfactory results with text-only models, GPT-4 Vision Turbo performs well when one provides both text recognized by an external OCR engine and document images on the input. Evaluation is followed by analyses that suggest possible contamination of textual GPT-4 models and indicate the significant performance drop for lengthy documents.
翻訳日:2024-05-29 17:11:13 公開日:2024-05-28
# GesGPT:GPTからのテキスト解析による音声ジェスチャー合成

GesGPT: Speech Gesture Synthesis With Text Parsing from GPT ( http://arxiv.org/abs/2303.13013v2 )

ライセンス: Link先を確認
Nan Gao, Zeyu Zhao, Zhi Zeng, Shuwu Zhang, Dongdong Weng, Yihua Bao, (参考訳) ジェスチャー合成は、文脈的に適切で自然なジェスチャーを音声やテキストの入力に対応付けることを目的として、重要な研究分野として注目されている。 深層学習に基づくアプローチは目覚ましい進歩を遂げているが、しばしばテキストに存在する豊かな意味情報を見落とし、表現力や意味のあるジェスチャーを少なくする。 本稿では,ChatGPTのような大規模言語モデルの意味解析機能を活用したジェスチャ生成手法であるGesGPTを提案する。 テキスト解析のためのLLMの強みを活かして、テキスト解析スクリプトを通じてプロのジェスチャーとベースジェスチャを生成し、統合する制御アプローチを採用し、多様かつ有意義なジェスチャーをもたらす。 まず,ジェスチャー生成をChatGPTを用いた意図的分類問題に変換する素早い原理の開発を行う。 また,ジェスチャ生成を支援するために,強調語と意味語をさらに分析する。 その後、複数の意味アノテーションを付加した特殊なジェスチャー辞書を構築し、ジェスチャーをプロのジェスチャーやベースジェスチャに分解する。 最後に、プロのジェスチャーとベースジェスチャをマージします。 実験結果から,GesGPTは文脈的に適切かつ表現力のあるジェスチャーを効果的に生成することが示された。

Gesture synthesis has gained significant attention as a critical research field, aiming to produce contextually appropriate and natural gestures corresponding to speech or textual input. Although deep learning-based approaches have achieved remarkable progress, they often overlook the rich semantic information present in the text, leading to less expressive and meaningful gestures. In this letter, we propose GesGPT, a novel approach to gesture generation that leverages the semantic analysis capabilities of large language models , such as ChatGPT. By capitalizing on the strengths of LLMs for text analysis, we adopt a controlled approach to generate and integrate professional gestures and base gestures through a text parsing script, resulting in diverse and meaningful gestures. Firstly, our approach involves the development of prompt principles that transform gesture generation into an intention classification problem using ChatGPT. We also conduct further analysis on emphasis words and semantic words to aid in gesture generation. Subsequently, we construct a specialized gesture lexicon with multiple semantic annotations, decoupling the synthesis of gestures into professional gestures and base gestures. Finally, we merge the professional gestures with base gestures. Experimental results demonstrate that GesGPT effectively generates contextually appropriate and expressive gestures.
翻訳日:2024-05-29 12:47:48 公開日:2024-05-28
# GesGPT:ChatGPTからのテキスト解析による音声ジェスチャー合成

GesGPT: Speech Gesture Synthesis With Text Parsing from ChatGPT ( http://arxiv.org/abs/2303.13013v3 )

ライセンス: Link先を確認
Nan Gao, Zeyu Zhao, Zhi Zeng, Shuwu Zhang, Dongdong Weng, Yihua Bao, (参考訳) ジェスチャー合成は、文脈的に適切で自然なジェスチャーを音声やテキストの入力に対応付けることを目的として、重要な研究分野として注目されている。 深層学習に基づくアプローチは目覚ましい進歩を遂げているが、しばしばテキストに存在する豊かな意味情報を見落とし、表現力や意味のあるジェスチャーを少なくする。 本稿では,ChatGPTのような大規模言語モデルの意味解析機能を活用したジェスチャ生成手法であるGesGPTを提案する。 テキスト解析のためのLLMの強みを活かして、テキスト解析スクリプトを通じてプロのジェスチャーとベースジェスチャを生成し、統合する制御アプローチを採用し、多様かつ有意義なジェスチャーをもたらす。 まず,ジェスチャー生成をChatGPTを用いた意図的分類問題に変換する素早い原理の開発を行う。 また,ジェスチャ生成を支援するために,強調語と意味語をさらに分析する。 その後、複数の意味アノテーションを付加した特殊なジェスチャー辞書を構築し、ジェスチャーをプロのジェスチャーやベースジェスチャに分解する。 最後に、プロのジェスチャーとベースジェスチャをマージします。 実験結果から,GesGPTは文脈的に適切かつ表現力のあるジェスチャーを効果的に生成することが示された。

Gesture synthesis has gained significant attention as a critical research field, aiming to produce contextually appropriate and natural gestures corresponding to speech or textual input. Although deep learning-based approaches have achieved remarkable progress, they often overlook the rich semantic information present in the text, leading to less expressive and meaningful gestures. In this letter, we propose GesGPT, a novel approach to gesture generation that leverages the semantic analysis capabilities of large language models , such as ChatGPT. By capitalizing on the strengths of LLMs for text analysis, we adopt a controlled approach to generate and integrate professional gestures and base gestures through a text parsing script, resulting in diverse and meaningful gestures. Firstly, our approach involves the development of prompt principles that transform gesture generation into an intention classification problem using ChatGPT. We also conduct further analysis on emphasis words and semantic words to aid in gesture generation. Subsequently, we construct a specialized gesture lexicon with multiple semantic annotations, decoupling the synthesis of gestures into professional gestures and base gestures. Finally, we merge the professional gestures with base gestures. Experimental results demonstrate that GesGPT effectively generates contextually appropriate and expressive gestures.
翻訳日:2024-05-29 12:38:03 公開日:2024-05-28
# 逐次意思決定への静的フェアネスの適応--バイアス緩和戦略による長期利益率の平等化

Adapting Static Fairness to Sequential Decision-Making: Bias Mitigation Strategies towards Equal Long-term Benefit Rate ( http://arxiv.org/abs/2309.03426v2 )

ライセンス: Link先を確認
Yuancheng Xu, Chenghao Deng, Yanchao Sun, Ruijie Zheng, Xiyao Wang, Jieyu Zhao, Furong Huang, (参考訳) 機械学習モデルによる決定は、持続的な影響を持つ可能性があるため、長期的な公正性は重要な考慮事項である。 長期的効果を無視して、静的な設定で直接公正性基準を適用すると、時間とともにバイアスが悪化する可能性があることが観察されている。 逐次意思決定におけるバイアスに対処するため、Equal Long-term Benefit Rate (ELBERT)という長期的な公正性の概念を導入する。 この概念はマルコフ決定プロセス(MDP)にシームレスに統合され、長期的公正性に対する行動の今後の影響を考慮し、公平な意思決定問題に対する統一的な枠組みを提供する。 ELBERTは、以前の長期公正の概念に見られる時間的差別問題に効果的に対処する。 さらに、長期利益率の政策勾配を標準政策勾配に解析的に単純化できることを実証する。 この単純化により、従来の政策最適化手法がバイアス低減に有効となり、我々のバイアス軽減アプローチであるELBERT-POに繋がる。 多様なシーケンシャルな意思決定環境における広範囲な実験により、ELBERT-POは高い実用性を維持しながらバイアスを著しく減少させることが明らかとなった。 コードはhttps://github.com/umd-huang-lab/ELBERT.comで入手できる。

Decisions made by machine learning models can have lasting impacts, making long-term fairness a critical consideration. It has been observed that ignoring the long-term effect and directly applying fairness criterion in static settings can actually worsen bias over time. To address biases in sequential decision-making, we introduce a long-term fairness concept named Equal Long-term Benefit Rate (ELBERT). This concept is seamlessly integrated into a Markov Decision Process (MDP) to consider the future effects of actions on long-term fairness, thus providing a unified framework for fair sequential decision-making problems. ELBERT effectively addresses the temporal discrimination issues found in previous long-term fairness notions. Additionally, we demonstrate that the policy gradient of Long-term Benefit Rate can be analytically simplified to standard policy gradients. This simplification makes conventional policy optimization methods viable for reducing bias, leading to our bias mitigation approach ELBERT-PO. Extensive experiments across various diverse sequential decision-making environments consistently reveal that ELBERT-PO significantly diminishes bias while maintaining high utility. Code is available at https://github.com/umd-huang-lab/ELBERT.
翻訳日:2024-05-29 12:08:44 公開日:2024-05-28
# 逐次意思決定への静的フェアネスの適応--バイアス緩和戦略による長期利益率の平等化

Adapting Static Fairness to Sequential Decision-Making: Bias Mitigation Strategies towards Equal Long-term Benefit Rate ( http://arxiv.org/abs/2309.03426v3 )

ライセンス: Link先を確認
Yuancheng Xu, Chenghao Deng, Yanchao Sun, Ruijie Zheng, Xiyao Wang, Jieyu Zhao, Furong Huang, (参考訳) 機械学習モデルによる決定は、持続的な影響を持つ可能性があるため、長期的な公正性は重要な考慮事項である。 長期的効果を無視して、静的な設定で直接公正性基準を適用すると、時間とともにバイアスが悪化する可能性があることが観察されている。 逐次意思決定におけるバイアスに対処するため、Equal Long-term Benefit Rate (ELBERT)という長期的な公正性の概念を導入する。 この概念はマルコフ決定プロセス(MDP)にシームレスに統合され、長期的公正性に対する行動の今後の影響を考慮し、公平な意思決定問題に対する統一的な枠組みを提供する。 ELBERTは、以前の長期公正の概念に見られる時間的差別問題に効果的に対処する。 さらに、長期利益率の政策勾配を標準政策勾配に解析的に単純化できることを実証する。 この単純化により、従来の政策最適化手法がバイアス低減に有効となり、我々のバイアス軽減アプローチであるELBERT-POに繋がる。 多様なシーケンシャルな意思決定環境における広範囲な実験により、ELBERT-POは高い実用性を維持しながらバイアスを著しく減少させることが明らかとなった。 コードはhttps://github.com/umd-huang-lab/ELBERT.comで入手できる。

Decisions made by machine learning models can have lasting impacts, making long-term fairness a critical consideration. It has been observed that ignoring the long-term effect and directly applying fairness criterion in static settings can actually worsen bias over time. To address biases in sequential decision-making, we introduce a long-term fairness concept named Equal Long-term Benefit Rate (ELBERT). This concept is seamlessly integrated into a Markov Decision Process (MDP) to consider the future effects of actions on long-term fairness, thus providing a unified framework for fair sequential decision-making problems. ELBERT effectively addresses the temporal discrimination issues found in previous long-term fairness notions. Additionally, we demonstrate that the policy gradient of Long-term Benefit Rate can be analytically simplified to standard policy gradients. This simplification makes conventional policy optimization methods viable for reducing bias, leading to our bias mitigation approach ELBERT-PO. Extensive experiments across various diverse sequential decision-making environments consistently reveal that ELBERT-PO significantly diminishes bias while maintaining high utility. Code is available at https://github.com/umd-huang-lab/ELBERT.
翻訳日:2024-05-29 12:08:44 公開日:2024-05-28
# LOVECon: ControlNetによるテキスト駆動トレーニングフリーの長編ビデオ編集

LOVECon: Text-driven Training-Free Long Video Editing with ControlNet ( http://arxiv.org/abs/2310.09711v3 )

ライセンス: Link先を確認
Zhenyi Liao, Zhijie Deng, (参考訳) ビデオ編集のための事前学習条件付き拡散モデルを活用することは、映画制作や広告などにおいて約束されているため、さらなる調整をせずに注目されている。 しかし、この行のセミナー作品は、生成長、時間的コヒーレンス、あるいはソースビデオへの忠実さに欠ける。 本稿では,このギャップを埋めることを目的として,学習自由拡散モデルに基づく長大ビデオ編集のための,シンプルで効果的なベースラインを確立する。 先行技術によって示唆されたように、我々はテキストプロンプトに基づいて様々な画像編集タスクを排他的に行うControlNet上にパイプラインを構築している。 計算メモリの制限によって引き起こされる長さの制約を解消するために、長い動画を連続するウィンドウに分割し、グローバルなスタイルの整合性を確保し、ウィンドウ間の滑らかさを最大化するために、新しいウィンドウ横断アテンション機構を開発する。 より正確な制御を実現するため、DDIMインバージョンを用いてソースビデオから情報を抽出し、その結果を世代ごとの潜伏状態に統合する。 また,フレームレベルのフリッカリング問題を緩和するために,ビデオフレーム補間モデルを組み込んだ。 大規模な実証実験により,前景オブジェクトの属性の置換,スタイル転送,背景置換など,シナリオ間の競合するベースラインよりも優れた手法の有効性が検証された。 さらに,ユーザ要求に応じて数百フレームの動画を編集する手法も提案した。 私たちのプロジェクトはオープンソースで、プロジェクトページはhttps://github.com/zhijie-group/LOVEConにあります。

Leveraging pre-trained conditional diffusion models for video editing without further tuning has gained increasing attention due to its promise in film production, advertising, etc. Yet, seminal works in this line fall short in generation length, temporal coherence, or fidelity to the source video. This paper aims to bridge the gap, establishing a simple and effective baseline for training-free diffusion model-based long video editing. As suggested by prior arts, we build the pipeline upon ControlNet, which excels at various image editing tasks based on text prompts. To break down the length constraints caused by limited computational memory, we split the long video into consecutive windows and develop a novel cross-window attention mechanism to ensure the consistency of global style and maximize the smoothness among windows. To achieve more accurate control, we extract the information from the source video via DDIM inversion and integrate the outcomes into the latent states of the generations. We also incorporate a video frame interpolation model to mitigate the frame-level flickering issue. Extensive empirical studies verify the superior efficacy of our method over competing baselines across scenarios, including the replacement of the attributes of foreground objects, style transfer, and background replacement. Besides, our method manages to edit videos comprising hundreds of frames according to user requirements. Our project is open-sourced and the project page is at https://github.com/zhijie-group/LOVECon.
翻訳日:2024-05-29 11:38:36 公開日:2024-05-28
# 変分推論のための変分パラメータ空間上のワッサーシュタイン勾配流

Wasserstein Gradient Flow over Variational Parameter Space for Variational Inference ( http://arxiv.org/abs/2310.16705v3 )

ライセンス: Link先を確認
Dai Hai Nguyen, Tetsuya Sakurai, Hiroshi Mamitsuka, (参考訳) 変分推論(VI)は、変分パラメータを調整し、変分分布を真の後部と密に整合させる最適化問題である。 最適化タスクは、ブラックボックスVIにおけるバニラ勾配降下または自然勾配VIにおける自然勾配降下を通じてアプローチすることができる。 本研究では,<textit{variational parameter space} 上で定義された確率分布を対象とする対象の最適化として VI を再構成する。 次に、この最適化問題に対処するためのワッサーシュタイン勾配降下法を提案する。 特に、ブラックボックス VI と自然勾配 VI の最適化手法は、提案されたワッサーシュタイン勾配勾配の特定の例として解釈することができる。 最適化の効率を向上させるため,離散勾配流の数値解法を開発した。 提案手法の有効性を, 理論的解析によって補足された合成データセット上での実験実験により検証した。

Variational inference (VI) can be cast as an optimization problem in which the variational parameters are tuned to closely align a variational distribution with the true posterior. The optimization task can be approached through vanilla gradient descent in black-box VI or natural-gradient descent in natural-gradient VI. In this work, we reframe VI as the optimization of an objective that concerns probability distributions defined over a \textit{variational parameter space}. Subsequently, we propose Wasserstein gradient descent for tackling this optimization problem. Notably, the optimization techniques, namely black-box VI and natural-gradient VI, can be reinterpreted as specific instances of the proposed Wasserstein gradient descent. To enhance the efficiency of optimization, we develop practical methods for numerically solving the discrete gradient flows. We validate the effectiveness of the proposed methods through empirical experiments on a synthetic dataset, supplemented by theoretical analyses.
翻訳日:2024-05-29 11:38:36 公開日:2024-05-28
# 言語モデルのためのパブリック検出可能な透かし

Publicly-Detectable Watermarking for Language Models ( http://arxiv.org/abs/2310.18491v3 )

ライセンス: Link先を確認
Jaiden Fairoze, Sanjam Garg, Somesh Jha, Saeed Mahloujifar, Mohammad Mahmoody, Mingyuan Wang, (参考訳) 検出アルゴリズムには秘密情報が含まれておらず,誰でも実行可能である。 リジェクションサンプリングを用いて、LLM出力に公開検証可能な暗号署名を埋め込む。 提案手法は, 暗号的に正しい, 音響的, 歪みのないものであることを実証する。 従来の透かし方式における障壁である低エントロピーの周期を克服するために, 誤り訂正手法を新規に活用する。 提案手法を実装し,2.7Bから70Bのパラメータ範囲におけるオープンモデル上での経験的測定を行う。 我々の実験は、我々の正式な主張が実際に満たされていることを示唆している。

We present a highly detectable, trustless watermarking scheme for LLMs: the detection algorithm contains no secret information, and it is executable by anyone. We embed a publicly-verifiable cryptographic signature into LLM output using rejection sampling. We prove that our scheme is cryptographically correct, sound, and distortion-free. We make novel uses of error-correction techniques to overcome periods of low entropy, a barrier for all prior watermarking schemes. We implement our scheme and make empirical measurements over open models in the 2.7B to 70B parameter range. Our experiments suggest that our formal claims are met in practice.
翻訳日:2024-05-29 11:38:36 公開日:2024-05-28
# 正規化スケーリング法則による大規模言語モデルからファインチューンへの選択

Selecting Large Language Model to Fine-tune via Rectified Scaling Law ( http://arxiv.org/abs/2402.02314v3 )

ライセンス: Link先を確認
Haowei Lin, Baizhou Huang, Haotian Ye, Qinyu Chen, Zihao Wang, Sujian Li, Jianzhu Ma, Xiaojun Wan, James Zou, Yitao Liang, (参考訳) LLMのエコシステムは、オプションの海の中で、最も適切なトレーニング済みモデルを選択することの難しさを招いている。 制約のあるリソースを前提に、すべてのモデルを微調整し、その後の選択は非現実的である。 本研究では,この資源制約された選択タスクを定式化し,微調整性能の予測を行い,スケーリング法則との自然な関連性を示す。 事前学習とは異なり、微調整のスケーリング曲線は、よく知られた「パワーフェーズ」だけでなく、これまで観測されていなかった「プリパワーフェーズ」も含む。 また、既存のスケーリング法則が、この相転移現象を理論的にも経験的にも捉えない理由についても説明する。 この問題に対処するため、我々はRectified Scaling Lawに"pre-learned data size"という概念を導入しました。 本法則を応用して,資源消費の数百倍の削減で最適に近いモデルを選択する新しいLCM選択アルゴリズムを提案する。 プロジェクトのページはrectified-scaling-law.github.ioで公開されている。

The ever-growing ecosystem of LLMs has posed a challenge in selecting the most appropriate pre-trained model to fine-tune amidst a sea of options. Given constrained resources, fine-tuning all models and making selections afterward is unrealistic. In this work, we formulate this resource-constrained selection task into predicting fine-tuning performance and illustrate its natural connection with Scaling Law. Unlike pre-training, we find that the fine-tuning scaling curve includes not just the well-known "power phase" but also the previously unobserved "pre-power phase". We also explain why existing Scaling Law fails to capture this phase transition phenomenon both theoretically and empirically. To address this, we introduce the concept of "pre-learned data size" into our Rectified Scaling Law, which overcomes theoretical limitations and fits experimental results much better. By leveraging our law, we propose a novel LLM selection algorithm that selects the near-optimal model with hundreds of times less resource consumption, while other methods may provide negatively correlated selection. The project page is available at rectified-scaling-law.github.io.
翻訳日:2024-05-29 11:38:36 公開日:2024-05-28
# Smoothing Objective Function における Momentum の役割とディープニューラルネットワークの一般化可能性

Role of Momentum in Smoothing Objective Function and Generalizability of Deep Neural Networks ( http://arxiv.org/abs/2402.02325v3 )

ライセンス: Link先を確認
Naoki Sato, Hideaki Iiduka, (参考訳) ディープニューラルネットワークを含む非凸目的関数では、運動量を持つ確率勾配降下(SGD)は高速収束と優れた一般化性を持つが、理論的には不足している。 最適化時に発生する確率雑音を確率勾配の分散として定義する以前の研究とは対照的に、最適化器の探索方向と最急降下方向とのギャップとして定義し、そのレベルがモデルの一般化可能性を支配することを示す。 また, 運動量を持つSGDの確率雑音は, 学習速度, バッチサイズ, 運動量係数, 確率勾配のばらつき, 勾配ノルムの上界によって決定される目標関数を円滑にすることを示した。 本研究では,SGD と SGD の確率的雑音レベルを運動量で数値的に導出することにより,SGD の運動量によるトレーニング力学を説明する理論的知見を提供する。 また,モデル一般化性は確率的雑音レベルに依存するという主張を支持する実験結果も提供する。

For nonconvex objective functions, including deep neural networks, stochastic gradient descent (SGD) with momentum has fast convergence and excellent generalizability, but a theoretical explanation for this is lacking. In contrast to previous studies that defined the stochastic noise that occurs during optimization as the variance of the stochastic gradient, we define it as the gap between the search direction of the optimizer and the steepest descent direction and show that its level dominates generalizability of the model. We also show that the stochastic noise in SGD with momentum smoothes the objective function, the degree of which is determined by the learning rate, the batch size, the momentum factor, the variance of the stochastic gradient, and the upper bound of the gradient norm. By numerically deriving the stochastic noise level in SGD and SGD with momentum, we provide theoretical findings that help explain the training dynamics of SGD with momentum, which were not explained by previous studies on convergence and stability. We also provide experimental results supporting our assertion that model generalizability depends on the stochastic noise level.
翻訳日:2024-05-29 11:38:36 公開日:2024-05-28
# 確率的置換による状態拡張による変分DAG推定

Variational DAG Estimation via State Augmentation With Stochastic Permutations ( http://arxiv.org/abs/2402.02644v3 )

ライセンス: Link先を確認
Edwin V. Bonilla, Pantelis Elinas, He Zhao, Maurizio Filippone, Vassili Kitsios, Terry O'Kane, (参考訳) 観測データから有向非巡回グラフ(DAG)の形でベイズネットワークの構造を推定することは、因果発見などの分野における本質的な応用を伴う統計的かつ計算的に難しい問題である。 ベイズ的アプローチは、不確実な定量化とよく知られた識別可能性問題への対処を可能にするため、この課題を解決するための有望な方向である。 確率論的推論の観点から、主な課題は 一 DAG 制約を満たすグラフ上の分布を表すこと。 (ii) 基礎となる組合せ空間上の後部を推定すること。 そこで本稿では,DAGと置換の強化空間上に共同分布を定式化することにより,これらの課題に対処するアプローチを提案する。 本研究では,離散分布の連続的緩和を生かした変分推論による後続推定を行う。 提案手法は, ベイジアンおよび非ベイジアンベンチマークを多種多様な合成および実データセットで比較した場合に比較して, 競合的に動作することを示す。

Estimating the structure of a Bayesian network, in the form of a directed acyclic graph (DAG), from observational data is a statistically and computationally hard problem with essential applications in areas such as causal discovery. Bayesian approaches are a promising direction for solving this task, as they allow for uncertainty quantification and deal with well-known identifiability issues. From a probabilistic inference perspective, the main challenges are (i) representing distributions over graphs that satisfy the DAG constraint and (ii) estimating a posterior over the underlying combinatorial space. We propose an approach that addresses these challenges by formulating a joint distribution on an augmented space of DAGs and permutations. We carry out posterior estimation via variational inference, where we exploit continuous relaxations of discrete distributions. We show that our approach performs competitively when compared with a wide range of Bayesian and non-Bayesian benchmarks on a range of synthetic and real datasets.
翻訳日:2024-05-29 11:38:36 公開日:2024-05-28
# 帰還アライメント決定変換器

Return-Aligned Decision Transformer ( http://arxiv.org/abs/2402.03923v4 )

ライセンス: Link先を確認
Tsunehiko Tanaka, Kenshi Abe, Kaito Ariu, Tetsuro Morimura, Edgar Simo-Serra, (参考訳) オフライン強化学習における従来のアプローチは、リターンとして知られる累積報酬を最大化する最適なポリシーを学ぶことを目的としている。 しかし、アプリケーションが広まるにつれて、リターンを最大化するだけでなく、実際のリターンを特定のターゲットリターンと整合させるエージェントを訓練することがますます重要になり、エージェントのパフォーマンスを制御できるようになる。 決定変換器(DT)は、教師付き学習を通じて目標リターンに条件付けられたアクションを生成するポリシーを最適化し、目標リターンを使用してエージェントを制御する機構を備える。 しかし、DTの自己注意が低い注意点を返却トークンに割り当てているため、アクション生成はターゲットリターンの影響を受けにくい。 本稿では、実際のリターンと目標リターンを効果的に整合させるために、Return-Aligned Decision Transformer (RADT)を提案する。 RADTはリターンのみに注意を払って抽出した特徴を利用するため、アクション生成は目標リターンに一貫して依存することができる。 大規模実験により、RADTはDTベースの手法の実際の戻り値と目標戻り値との差を減少させることが示された。

Traditional approaches in offline reinforcement learning aim to learn the optimal policy that maximizes the cumulative reward, also known as return. However, as applications broaden, it becomes increasingly crucial to train agents that not only maximize the returns, but align the actual return with a specified target return, giving control over the agent's performance. Decision Transformer (DT) optimizes a policy that generates actions conditioned on the target return through supervised learning and is equipped with a mechanism to control the agent using the target return. However, the action generation is hardly influenced by the target return because DT's self-attention allocates scarce attention scores to the return tokens. In this paper, we propose Return-Aligned Decision Transformer (RADT), designed to effectively align the actual return with the target return. RADT utilizes features extracted by paying attention solely to the return, enabling the action generation to consistently depend on the target return. Extensive experiments show that RADT reduces the discrepancies between the actual return and the target return of DT-based methods.
翻訳日:2024-05-29 11:38:36 公開日:2024-05-28
# 並列観測予測によるトークンベース世界モデルの改善

Improving Token-Based World Models with Parallel Observation Prediction ( http://arxiv.org/abs/2402.05643v4 )

ライセンス: Link先を確認
Lior Cohen, Kaixin Wang, Bingyi Kang, Shie Mannor, (参考訳) 離散シンボルのシーケンスに適用したトランスフォーマーの成功により、最近、サンプル効率の良い方法としてトークンベースの世界モデル(TBWM)が提案された。 TBWMでは、ワールドモデルはエージェントの経験を言語のようなトークンのシーケンスとして消費し、それぞれの観察がサブシーケンスを構成する。 しかしながら、イマジネーションの間、シーケンシャルなトークン・バイ・トークン生成による次の観測は深刻なボトルネックを引き起こし、長いトレーニング時間、GPU利用の低さ、限られた表現につながります。 このボトルネックを解決するために,新しい並列観測予測(POP)機構を考案した。 POPは、我々の強化学習環境に合わせて、新しいフォワードモードでRetentive Network(RetNet)を拡張します。 我々は,従来のTBWMよりも15.4倍高速な想像力を示す新しいTBWMエージェントREM(Retentive Environment Model)にPOPを組み込んだ。 REMは、Atari 100Kベンチマークの26試合中12試合で超人的なパフォーマンスを達成し、トレーニングは12時間以内である。 私たちのコードは \url{https://github.com/leor-c/REM} で利用可能です。

Motivated by the success of Transformers when applied to sequences of discrete symbols, token-based world models (TBWMs) were recently proposed as sample-efficient methods. In TBWMs, the world model consumes agent experience as a language-like sequence of tokens, where each observation constitutes a sub-sequence. However, during imagination, the sequential token-by-token generation of next observations results in a severe bottleneck, leading to long training times, poor GPU utilization, and limited representations. To resolve this bottleneck, we devise a novel Parallel Observation Prediction (POP) mechanism. POP augments a Retentive Network (RetNet) with a novel forward mode tailored to our reinforcement learning setting. We incorporate POP in a novel TBWM agent named REM (Retentive Environment Model), showcasing a 15.4x faster imagination compared to prior TBWMs. REM attains superhuman performance on 12 out of 26 games of the Atari 100K benchmark, while training in less than 12 hours. Our code is available at \url{https://github.com/leor-c/REM}.
翻訳日:2024-05-29 11:38:36 公開日:2024-05-28
# AdAdaGrad:Adaptive Gradient MethodsのためのAdaptive Batch Size Schemes

AdAdaGrad: Adaptive Batch Size Schemes for Adaptive Gradient Methods ( http://arxiv.org/abs/2402.11215v3 )

ライセンス: Link先を確認
Tim Tsz-Kit Lau, Han Liu, Mladen Kolar, (参考訳) 最小バッチ確率勾配最適化器におけるバッチサイズの選択は、最適化と一般化性能の両方の大規模モデルトレーニングにおいて重要である。 大規模バッチ学習はハードウェアの進歩による大規模深層学習の主流の訓練パラダイムであることは間違いないが、このモデルの一般化性能は小バッチ学習と比較して低下し、いわゆる「一般化ギャップ」現象へと繋がる。 これを軽減するため,適応サンプリング法から得られた適応バッチサイズ戦略について検討した。 学習率とバッチサイズの間に大きな相互作用があり、深層学習における適応的勾配法の適用率を考慮すると、これらの文脈における適応的バッチサイズ戦略の必要性が強調される。 本稿では,AdAdaGradとそのスカラー変種AdAdaGradNormについて紹介する。 我々は、AdAdaGradNorm が $\mathscr{O}(1/K)$ の速度で高い確率で収束することを証明し、$K$反復の中で滑らかな非凸函数の1次定常点を求める。 AdAdaGradはまた、我々の適応バッチサイズ戦略の座標ワイドな新しい変種と統合した場合、同様の収束特性を示す。 画像分類実験を行うことで理論的主張を裏付け、学習効率とモデル一般化の両面から提案したスキームの利点を強調した。 本研究は,大規模モデルトレーニングにおける適応的勾配最適化のための適応的バッチサイズ戦略の可能性を明らかにする。

The choice of batch sizes in minibatch stochastic gradient optimizers is critical in large-scale model training for both optimization and generalization performance. Although large-batch training is arguably the dominant training paradigm for large-scale deep learning due to hardware advances, the generalization performance of the model deteriorates compared to small-batch training, leading to the so-called "generalization gap" phenomenon. To mitigate this, we investigate adaptive batch size strategies derived from adaptive sampling methods, originally developed only for stochastic gradient descent. Given the significant interplay between learning rates and batch sizes, and considering the prevalence of adaptive gradient methods in deep learning, we emphasize the need for adaptive batch size strategies in these contexts. We introduce AdAdaGrad and its scalar variant AdAdaGradNorm, which progressively increase batch sizes during training, while model updates are performed using AdaGrad and AdaGradNorm. We prove that AdAdaGradNorm converges with high probability at a rate of $\mathscr{O}(1/K)$ to find a first-order stationary point of smooth nonconvex functions within $K$ iterations. AdAdaGrad also demonstrates similar convergence properties when integrated with a novel coordinate-wise variant of our adaptive batch size strategies. We corroborate our theoretical claims by performing image classification experiments, highlighting the merits of the proposed schemes in terms of both training efficiency and model generalization. Our work unveils the potential of adaptive batch size strategies for adaptive gradient optimizers in large-scale model training.
翻訳日:2024-05-29 11:38:36 公開日:2024-05-28
# NTKレジームにおけるLoRAトレーニングは、すっきりした局所的なミニマを伴わない

LoRA Training in the NTK Regime has No Spurious Local Minima ( http://arxiv.org/abs/2402.11867v3 )

ライセンス: Link先を確認
Uijeong Jang, Jason D. Lee, Ernest K. Ryu, (参考訳) 低ランク適応(LoRA)は,大規模言語モデル(LLM)のパラメータ効率の高い微調整の標準手法となっているが,ロRAの理論的理解は限られている。 本研究では,ニューラルネットワークカーネル(NTK)システムにおけるLoRA微細チューニングを理論的に解析し,以下の点を示す。 (i)完全微調整(LoRAなしで)は、階数$r\lesssim \sqrt{N}$の低ランク解を認める。 (ii) ランク $r\gtrsim \sqrt{N}$ の LoRA を用いることで、緩やかな局所ミニマを排除し、勾配降下により低階解を見つけることができる。 3) LoRA を用いた低ランク解はよく一般化される。

Low-rank adaptation (LoRA) has become the standard approach for parameter-efficient fine-tuning of large language models (LLM), but our theoretical understanding of LoRA has been limited. In this work, we theoretically analyze LoRA fine-tuning in the neural tangent kernel (NTK) regime with $N$ data points, showing: (i) full fine-tuning (without LoRA) admits a low-rank solution of rank $r\lesssim \sqrt{N}$; (ii) using LoRA with rank $r\gtrsim \sqrt{N}$ eliminates spurious local minima, allowing gradient descent to find the low-rank solutions; (iii) the low-rank solution found using LoRA generalizes well.
翻訳日:2024-05-29 11:38:36 公開日:2024-05-28
# チャットLLMの知識融合 : 予備技術報告

Knowledge Fusion of Chat LLMs: A Preliminary Technical Report ( http://arxiv.org/abs/2402.16107v5 )

ライセンス: Link先を確認
Fanqi Wan, Ziyi Yang, Longguang Zhong, Xiaojun Quan, Xinting Huang, Wei Bi, (参考訳) 近年、FuseLLM は、複数の構造変化 LLM の集合的知識を、軽量な連続訓練により目標 LLM に転送する知識融合の概念を導入している。 本稿では,FuseLLMフレームワークのスケーラビリティと柔軟性を拡張して,チャットLLMの融合を実現し,FusionChatを実現する。 FusionChatは2つの主要なステージから構成される。 まず, 構造的および規模的に変化したLLMに対して知識融合を行い, 軽量微調整により同一構造と大きさの複数のLLMを導出する。 次に,これらのLLMをパラメータ空間内にマージし,微調整前後のパラメータ行列の変動率に基づいてマージ重みを決定する手法を提案する。 我々は,異なるアーキテクチャとスケールを持つ3つの著名なチャットLLM,すなわちNH2-Mixtral-8x7B,NH2-Solar-10.7B,OpenChat-3.5-7Bを用いて,我々のアプローチを検証する。 様々なチャットドメインにまたがる実験結果から、7Bおよび34BスケールのチャットLLMにおいてFusionChat-7BがGPT-3.5(3月)を超え、Mixtral-8x7B-Instructに近づいた。

Recently, FuseLLM introduced the concept of knowledge fusion to transfer the collective knowledge of multiple structurally varied LLMs into a target LLM through lightweight continual training. In this report, we extend the scalability and flexibility of the FuseLLM framework to realize the fusion of chat LLMs, resulting in FusionChat. FusionChat comprises two main stages. Firstly, we undertake knowledge fusion for structurally and scale-varied source LLMs to derive multiple target LLMs of identical structure and size via lightweight fine-tuning. Then, these target LLMs are merged within the parameter space, wherein we propose a novel method for determining the merging weights based on the variation ratio of parameter matrices before and after fine-tuning. We validate our approach using three prominent chat LLMs with diverse architectures and scales, namely NH2-Mixtral-8x7B, NH2-Solar-10.7B, and OpenChat-3.5-7B. Experimental results spanning various chat domains demonstrate the superiority of FusionChat-7B across a broad spectrum of chat LLMs at 7B and 34B scales, even surpassing GPT-3.5 (March) and approaching Mixtral-8x7B-Instruct.
翻訳日:2024-05-29 11:28:48 公開日:2024-05-28
# DS-Agent:ケースベース推論による大規模言語モデルを活用したデータサイエンスの自動化

DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning ( http://arxiv.org/abs/2402.17453v5 )

ライセンス: Link先を確認
Siyuan Guo, Cheng Deng, Ying Wen, Hechang Chen, Yi Chang, Jun Wang, (参考訳) 本研究では,大規模言語モデル(LLM)をベースとしたエージェントが,タスク要求を理解し,最適な機械学習モデルを構築し,訓練することを目的として,データサイエンスタスクを自動化する可能性について検討する。 その成功にもかかわらず、既存のLLMエージェントは、このシナリオ内で不合理な実験計画を発生させることで妨げられている。 この目的のために, LLMエージェントとケースベース推論(CBR)を利用した新しい自動フレームワークDS-Agentを提案する。 開発段階では、DS-AgentはCBRフレームワークに従って自動イテレーションパイプラインを構築し、Kaggleから専門家の知識を柔軟に活用し、フィードバックメカニズムを通じて一貫したパフォーマンス改善を促進する。 さらにDS-Agentは、開発段階で成功したソリューションを直接コード生成に適応させるため、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装しており、LCMの基本能力に対する需要を著しく減らしている。 GPT-4を用いたDS-Agentは、開発段階では100倍の成功率を達成すると同時に、デプロイ段階では、代替LLMの平均1パスレートを36倍改善する。 どちらの段階でもDS-AgentはGPT-4で1ラン当たり1.60ドルと0.13ドルという最高の成績を収めている。 我々のデータとコードはhttps://github.com/guosyjlu/DS-Agent.comでオープンソース化されています。

In this work, we investigate the potential of large language models (LLMs) based agents to automate data science tasks, with the goal of comprehending task requirements, then building and training the best-fit machine learning models. Despite their widespread success, existing LLM agents are hindered by generating unreasonable experiment plans within this scenario. To this end, we present DS-Agent, a novel automatic framework that harnesses LLM agent and case-based reasoning (CBR). In the development stage, DS-Agent follows the CBR framework to structure an automatic iteration pipeline, which can flexibly capitalize on the expert knowledge from Kaggle, and facilitate consistent performance improvement through the feedback mechanism. Moreover, DS-Agent implements a low-resource deployment stage with a simplified CBR paradigm to adapt past successful solutions from the development stage for direct code generation, significantly reducing the demand on foundational capabilities of LLMs. Empirically, DS-Agent with GPT-4 achieves 100\% success rate in the development stage, while attaining 36\% improvement on average one pass rate across alternative LLMs in the deployment stage. In both stages, DS-Agent achieves the best rank in performance, costing \$1.60 and \$0.13 per run with GPT-4, respectively. Our data and code are open-sourced at https://github.com/guosyjlu/DS-Agent.
翻訳日:2024-05-29 11:28:48 公開日:2024-05-28
# 拡散モデルの正確なバイナリ化に向けて

Towards Accurate Binarization of Diffusion Model ( http://arxiv.org/abs/2404.05662v3 )

ライセンス: Link先を確認
Xingyu Zheng, Haotong Qin, Xudong Ma, Mingyuan Zhang, Haojie Hao, Jiakai Wang, Zixiang Zhao, Jinyang Guo, Xianglong Liu, (参考訳) 拡散モデル(DM)の進歩と計算要求の大幅な増大により、量子化はコンパクトで効率的な低ビットDMを得るための実用的な解決策として現れる。 しかし、非常に離散的な表現は精度の低下を招き、拡散モデルの超低ビット幅への量子化を妨げる。 本稿では,DMの新しい量子化学習手法であるBinaryDMを提案する。 提案手法は,表現特性と計算特性を考慮して,DMの重み付けを高精度かつ効率的にバイナライズする。 表現の観点からは、二項化DMによって生成された表現を復元するLearable Multi-Basis Binarizer (LMB)を提案する。 LMBは、DMアーキテクチャのパラメータスパースな位置に適用しながら、2つのバイナリベースをフレキシブルに組み合わせることで、詳細な情報を強化する。 最適化の観点からは、二項化DMの最適化を支援するために低ランク表現ミミシング(LRM)を適用する。 LRMは低ランク空間における完全精度DMの表現を模倣し、微粒なアライメントに起因する最適化プロセスの方向性の曖昧さを軽減する。 さらに、BinaryDMに高速なプログレッシブウォームアップを適用し、トレーニング開始時の階層的にプログレッシブ量子化による収束困難を回避する。 超低ビット幅におけるDMのSOTA量子化法と比較して,BinaryDMは高い精度と効率向上を達成することを示した。 1.1ビットの重みと4ビットのアクティベーション(W1.1A4)により、BinaryDMは7.11 FIDまで低くなり、破壊(ベースラインFID 39.69)から性能を低下させる。 拡散モデルの最初の二項化法として、W1.1A4 BinaryDMは9.3倍のOPと24.8倍のモデルサイズを達成し、エッジ展開の可能性を示している。

With the advancement of diffusion models (DMs) and the substantially increased computational requirements, quantization emerges as a practical solution to obtain compact and efficient low-bit DMs. However, the highly discrete representation leads to severe accuracy degradation, hindering the quantization of diffusion models to ultra-low bit-widths. This paper proposes a novel quantization-aware training approach for DMs, namely BinaryDM. The proposed method pushes DMs' weights toward accurate and efficient binarization, considering the representation and computation properties. From the representation perspective, we present a Learnable Multi-basis Binarizer (LMB) to recover the representations generated by the binarized DM. The LMB enhances detailed information through the flexible combination of dual binary bases while applying to parameter-sparse locations of DM architectures to achieve minor burdens. From the optimization perspective, a Low-rank Representation Mimicking (LRM) is applied to assist the optimization of binarized DMs. The LRM mimics the representations of full-precision DMs in low-rank space, alleviating the direction ambiguity of the optimization process caused by fine-grained alignment. Moreover, a quick progressive warm-up is applied to BinaryDM, avoiding convergence difficulties by layerwisely progressive quantization at the beginning of training. Comprehensive experiments demonstrate that BinaryDM achieves significant accuracy and efficiency gains compared to SOTA quantization methods of DMs under ultra-low bit-widths. With 1.1-bit weight and 4-bit activation (W1.1A4), BinaryDM achieves as low as 7.11 FID and saves the performance from collapse (baseline FID 39.69). As the first binarization method for diffusion models, W1.1A4 BinaryDM achieves impressive 9.3 times OPs and 24.8 times model size savings, showcasing its substantial potential for edge deployment.
翻訳日:2024-05-29 11:28:48 公開日:2024-05-28
# MLLMのマルチレベル自動選好

Automated Multi-level Preference for MLLMs ( http://arxiv.org/abs/2405.11165v3 )

ライセンス: Link先を確認
Mengxi Zhang, Wenhao Wu, Yu Lu, Yuxin Song, Kang Rong, Huanjin Yao, Jianbo Zhao, Fanglong Liu, Yifan Sun, Haocheng Feng, Jingdong Wang, (参考訳) 現在のMLLM(Multimodal Large Language Models)は 'hallucination' に悩まされており、時には入力画像に基づかない応答を生成する。 この課題に対処するためには、人間からのフィードバック(RLHF)からの強化学習を利用することが期待できる。 二項選好(上等、下等)の一般的な実践を再考し、多水準選好(上等、中等、下等)を採用する方が2つの利点があることを示す。 1) 隣接レベル間のギャップを狭くし, MLLMが微妙な違いを識別できるようにする。 2) クロスレベル比較(隣接レベル比較)をさらに統合し,幻覚例との比較範囲を広げた。 本稿では,MLLMのためのAMPフレームワークについて述べる。 このフレームワークを容易にするために、まず、人間のアノテータを使わずに高品質なマルチレベル嗜好データセットを提供する自動データセット生成パイプラインを開発する。 さらに,多レベル直接選好最適化(MDPO)アルゴリズムを設計し,複雑な多レベル選好学習を行う。 さらに,新しい幻覚ベンチマークMRHal-Benchを提案する。 我々のMRHal-Benchと同様に、公衆の幻覚や一般ベンチマークの広範な実験により、提案手法の有効性を実証した。 コードはhttps://github.com/takomc/amp.comから入手できる。

Current multimodal Large Language Models (MLLMs) suffer from ``hallucination'', occasionally generating responses that are not grounded in the input images. To tackle this challenge, one promising path is to utilize reinforcement learning from human feedback (RLHF), which steers MLLMs towards learning superior responses while avoiding inferior ones. We rethink the common practice of using binary preferences (i.e., superior, inferior), and find that adopting multi-level preferences (e.g., superior, medium, inferior) is better for two benefits: 1) It narrows the gap between adjacent levels, thereby encouraging MLLMs to discern subtle differences. 2) It further integrates cross-level comparisons (beyond adjacent-level comparisons), thus providing a broader range of comparisons with hallucination examples. To verify our viewpoint, we present the Automated Multi-level Preference (AMP) framework for MLLMs. To facilitate this framework, we first develop an automated dataset generation pipeline that provides high-quality multi-level preference datasets without any human annotators. Furthermore, we design the Multi-level Direct Preference Optimization (MDPO) algorithm to robustly conduct complex multi-level preference learning. Additionally, we propose a new hallucination benchmark, MRHal-Bench. Extensive experiments across public hallucination and general benchmarks, as well as our MRHal-Bench, demonstrate the effectiveness of our proposed method. Code is available at https://github.com/takomc/amp.
翻訳日:2024-05-29 11:28:48 公開日:2024-05-28
# 勧告をデノベートするための二重補正フレームワーク

Double Correction Framework for Denoising Recommendation ( http://arxiv.org/abs/2405.11272v3 )

ライセンス: Link先を確認
Zhuangzhuang He, Yifan Wang, Yonghui Yang, Peijie Sun, Le Wu, Haoyue Bai, Jinqi Gong, Richang Hong, Min Zhang, (参考訳) オンラインサービスの可用性と汎用性のため、暗黙のフィードバックはより一般的にレコメンデーションシステムで使用される。 しかし、暗黙的なフィードバックは通常、現実の推奨シナリオ(クリックミスや非推奨行動など)でノイズの多いサンプルを提示する。 ノイズサンプル問題を克服するために、一般的な解法は、ノイズサンプルがクリーンサンプルよりも高いトレーニング損失を有するという観察の後、モデルトレーニングフェーズにノイズサンプルを落とすことに基づいている。 有効性にも拘わらず、我々はこの解決策には限界があると主張する。 1) 学習損失の増大は, モデル最適化の不安定性や硬度サンプルによるものであり, ノイズの多いサンプルだけではない。 2) ノイズの多いサンプルの完全なドロップは、完全なデータエクスプロイトが欠如しているデータスポーラリティを悪化させる。 上記の制限に対処するため、より正確なサンプルドロップのビューから2つの補正要素を含むDouble Correction Framework for Denoising Recommendation (DCF)を提案する。 試料落下補正成分では, 試料の損失値を用いてノイズの有無を判定し, 落下安定性を向上する。 直接平均化する代わりに、減衰関数を用いて、降圧器のバイアス効果を低減します。 さらに, 硬質試料が示す分散度が高いため, 濃度不等式による損失の低減を図り, 硬質試料を同定・再利用する。 逐次ラベル補正では,高決定性雑音サンプルを反復的に再ラベルし,さらに性能を向上させるために再トレーニングする。 最後に、3つのデータセットと4つのバックボーンに関する広範な実験結果から、提案フレームワークの有効性と一般化を実証した。

As its availability and generality in online services, implicit feedback is more commonly used in recommender systems. However, implicit feedback usually presents noisy samples in real-world recommendation scenarios (such as misclicks or non-preferential behaviors), which will affect precise user preference learning. To overcome the noisy samples problem, a popular solution is based on dropping noisy samples in the model training phase, which follows the observation that noisy samples have higher training losses than clean samples. Despite the effectiveness, we argue that this solution still has limits. (1) High training losses can result from model optimization instability or hard samples, not just noisy samples. (2) Completely dropping of noisy samples will aggravate the data sparsity, which lacks full data exploitation. To tackle the above limitations, we propose a Double Correction Framework for Denoising Recommendation (DCF), which contains two correction components from views of more precise sample dropping and avoiding more sparse data. In the sample dropping correction component, we use the loss value of the samples over time to determine whether it is noise or not, increasing dropping stability. Instead of averaging directly, we use the damping function to reduce the bias effect of outliers. Furthermore, due to the higher variance exhibited by hard samples, we derive a lower bound for the loss through concentration inequality to identify and reuse hard samples. In progressive label correction, we iteratively re-label highly deterministic noisy samples and retrain them to further improve performance. Finally, extensive experimental results on three datasets and four backbones demonstrate the effectiveness and generalization of our proposed framework.
翻訳日:2024-05-29 11:28:48 公開日:2024-05-28
# ディープラーニングを用いたC/C++コードの脆弱性検出

Vulnerability Detection in C/C++ Code with Deep Learning ( http://arxiv.org/abs/2405.12384v3 )

ライセンス: Link先を確認
Zhen Huang, Amy Aumpansub, (参考訳) ディープラーニングは、ソフトウェアの脆弱性を検出するための有望なツールであることが示されている。 本研究では,C/C++プログラムのソースコードから抽出したプログラムスライスを用いてニューラルネットワークをトレーニングし,ソフトウェア脆弱性を検出する。 プログラムスライスでは、API関数呼び出し、配列使用、ポインタ使用、演算式など、脆弱性に関連するプログラム構成の構文とセマンティック特性をキャプチャする。 脆弱なコードと非脆弱なコードの両方に対して強力な予測モデルを実現するため、異なるタイプのトレーニングデータ、異なるオプティマイザ、異なるタイプのニューラルネットワークを比較した。 この結果から,ソースコードの特徴の相違と,脆弱なプログラムスライスと非脆弱性なプログラムスライスをバランスよく組み合わせることで,脆弱なコードと非脆弱性なコードの両方を予測する上で,バランスの取れた精度が得られることがわかった。 さまざまなニューラルネットワークの中で、ADAMオプティマイザを備えたBGRUは、92.49%の精度でソフトウェア脆弱性を検出するのに最善を尽くしている。

Deep learning has been shown to be a promising tool in detecting software vulnerabilities. In this work, we train neural networks with program slices extracted from the source code of C/C++ programs to detect software vulnerabilities. The program slices capture the syntax and semantic characteristics of vulnerability-related program constructs, including API function call, array usage, pointer usage, and arithmetic expression. To achieve a strong prediction model for both vulnerable code and non-vulnerable code, we compare different types of training data, different optimizers, and different types of neural networks. Our result shows that combining different types of characteristics of source code and using a balanced number of vulnerable program slices and non-vulnerable program slices produce a balanced accuracy in predicting both vulnerable code and non-vulnerable code. Among different neural networks, BGRU with the ADAM optimizer performs the best in detecting software vulnerabilities with an accuracy of 92.49%.
翻訳日:2024-05-29 11:28:48 公開日:2024-05-28
# FAdam:Adamは対角的な経験的フィッシャー情報を用いた自然な勾配最適化器です。

FAdam: Adam is a natural gradient optimizer using diagonal empirical Fisher information ( http://arxiv.org/abs/2405.12807v4 )

ライセンス: Link先を確認
Dongseong Hwang, (参考訳) 本稿では、Adam Optimizationrの数学的基礎を確立し、リーマン的および情報幾何学による自然勾配降下との関係を解明する。 本研究では,Adam の対角的経験的フィッシャー情報行列 (FIM) を厳密に解析し,実験的 FIM の限界のため,離散分布に基づいたログ確率関数の損失としての利用を推奨する。 解析によって元のAdamアルゴリズムの欠陥が明らかとなり、運動量計算の強化、バイアス補正の調整、適応エプシロン、勾配クリッピングなどの修正が提案された。 我々は、我々の理論的枠組みに基づいて重量減衰項を洗練する。 我々の修正アルゴリズムであるFisher Adam (FAdam) は、LLM、ASR、VQ-VAEを含む様々な領域で優れた性能を示し、ASRにおける最先端の結果を達成する。

This paper establishes a mathematical foundation for the Adam optimizer, elucidating its connection to natural gradient descent through Riemannian and information geometry. We rigorously analyze the diagonal empirical Fisher information matrix (FIM) in Adam, clarifying all detailed approximations and advocating for the use of log probability functions as loss, which should be based on discrete distributions, due to the limitations of empirical FIM. Our analysis uncovers flaws in the original Adam algorithm, leading to proposed corrections such as enhanced momentum calculations, adjusted bias corrections, adaptive epsilon, and gradient clipping. We refine the weight decay term based on our theoretical framework. Our modified algorithm, Fisher Adam (FAdam), demonstrates superior performance across diverse domains including LLM, ASR, and VQ-VAE, achieving state-of-the-art results in ASR.
翻訳日:2024-05-29 11:28:48 公開日:2024-05-28
# MetaEarth:グローバルなリモートセンシング画像生成のための生成基盤モデル

MetaEarth: A Generative Foundation Model for Global-Scale Remote Sensing Image Generation ( http://arxiv.org/abs/2405.13570v2 )

ライセンス: Link先を確認
Zhiping Yu, Chenyang Liu, Liqin Liu, Zhenwei Shi, Zhengxia Zou, (参考訳) 生成基盤モデルの最近の進歩は、自然画像の領域における画像生成の新たな時代、アートデザイン、エンターテイメント、環境シミュレーションなどの革命をもたらした。 高品質なサンプルを作成するにもかかわらず、既存の手法は限られたスケールでシーンの画像を生成することに制約されている。 本稿では,世界規模,多解像度,非有界,仮想的に制限のないリモートセンシング画像の作成を探求し,画像生成をグローバルレベルに拡大することで障壁を突破する生成基盤モデルであるMetaEarthを提案する。 MetaEarthでは,地理的解像度の広い任意の領域で画像を生成するための自己カスケード型自己カスケード生成フレームワークを提案する。 非有界および任意の大きさの画像生成を実現するために,生成条件と初期雑音を解析して拡散モデルのノイズサンプリング戦略を設計する。 MetaEarthを訓練するために、地理的情報を備えた多解像度光リモートセンシング画像からなる大規模なデータセットを構築した。 実験では,グローバルな画像を生成する上で,本手法の強力な能力を実証した。 さらにMetaEarthは、下流タスクのための高品質でリッチなトレーニングデータを提供するデータエンジンとしても機能する。 我々のモデルは、革新的なオーバヘッドの観点から地球視覚をシミュレートすることで、生成的世界モデルを構築する新たな可能性を開く。

The recent advancement of generative foundational models has ushered in a new era of image generation in the realm of natural images, revolutionizing art design, entertainment, environment simulation, and beyond. Despite producing high-quality samples, existing methods are constrained to generating images of scenes at a limited scale. In this paper, we present MetaEarth, a generative foundation model that breaks the barrier by scaling image generation to a global level, exploring the creation of worldwide, multi-resolution, unbounded, and virtually limitless remote sensing images. In MetaEarth, we propose a resolution-guided self-cascading generative framework, which enables the generating of images at any region with a wide range of geographical resolutions. To achieve unbounded and arbitrary-sized image generation, we design a novel noise sampling strategy for denoising diffusion models by analyzing the generation conditions and initial noise. To train MetaEarth, we construct a large dataset comprising multi-resolution optical remote sensing images with geographical information. Experiments have demonstrated the powerful capabilities of our method in generating global-scale images. Additionally, the MetaEarth serves as a data engine that can provide high-quality and rich training data for downstream tasks. Our model opens up new possibilities for constructing generative world models by simulating Earth visuals from an innovative overhead perspective.
翻訳日:2024-05-29 11:28:48 公開日:2024-05-28
# PDMLP:Patch-based Decomposed MLP for Long-Term Time Series Forecasting

PDMLP: Patch-based Decomposed MLP for Long-Term Time Series Forecasting ( http://arxiv.org/abs/2405.13575v2 )

ライセンス: Link先を確認
Peiwang Tang, Weitai Zhang, (参考訳) 近年, Transformer アーキテクチャを改良し, 長期時系列予測(LTSF)タスクの有効性を実証する研究が進められている。 改良された性能を持つ線形予測モデルが数多く存在するが、LTSFの解法としてトランスフォーマーに懐疑的であり続けている。 これらのモデルの有効性は主に、配列の局所性をある程度向上するが、置換不変な自己認識機構に固有の時間情報の損失を完全に解決することができない、採用されたパッチ機構に起因している。 さらに、Patch機構で強化された単純な線形層は、複雑なTransformerベースのLTSFモデルより優れている可能性が示唆されている。 さらに,チャネル独立性を用いたモデルから分岐することで,多変量時系列予測の性能向上における相互変数間相互作用の重要性が浮き彫りになる。 変数間の相互作用情報は極めて貴重であるが、過去の研究では誤適用され、最適準変数モデルが導かれる。 これらの知見に基づいて、LTSF タスクのための新規でシンプルなパッチベース分解型 MLP (PDMLP) を提案する。 具体的には、単純な移動平均を用いて、時系列データから滑らかな成分やノイズを含む残留物を抽出し、チャネルミキシングを通じて意味情報交換を行い、チャネル独立処理によるランダムノイズを専門化する。 PDMLPモデルは、いくつかの実世界のデータセットにおける最先端の結果を一貫して達成する。 この驚くべき発見がLTSF分野の新たな研究方向を刺激し、より効率的で簡潔なソリューションの道を開くことを願っている。

Recent studies have attempted to refine the Transformer architecture to demonstrate its effectiveness in Long-Term Time Series Forecasting (LTSF) tasks. Despite surpassing many linear forecasting models with ever-improving performance, we remain skeptical of Transformers as a solution for LTSF. We attribute the effectiveness of these models largely to the adopted Patch mechanism, which enhances sequence locality to an extent yet fails to fully address the loss of temporal information inherent to the permutation-invariant self-attention mechanism. Further investigation suggests that simple linear layers augmented with the Patch mechanism may outperform complex Transformer-based LTSF models. Moreover, diverging from models that use channel independence, our research underscores the importance of cross-variable interactions in enhancing the performance of multivariate time series forecasting. The interaction information between variables is highly valuable but has been misapplied in past studies, leading to suboptimal cross-variable models. Based on these insights, we propose a novel and simple Patch-based Decomposed MLP (PDMLP) for LTSF tasks. Specifically, we employ simple moving averages to extract smooth components and noise-containing residuals from time series data, engaging in semantic information interchange through channel mixing and specializing in random noise with channel independence processing. The PDMLP model consistently achieves state-of-the-art results on several real-world datasets. We hope this surprising finding will spur new research directions in the LTSF field and pave the way for more efficient and concise solutions.
翻訳日:2024-05-29 11:28:48 公開日:2024-05-28
# DCTによる視覚変換器の劣化注意

DCT-Based Decorrelated Attention for Vision Transformers ( http://arxiv.org/abs/2405.13901v2 )

ライセンス: Link先を確認
Hongyi Pan, Emadeldeen Hamdan, Xin Zhu, Koushik Biswas, Ahmet Enis Cetin, Ulas Bagci, (参考訳) Transformerアーキテクチャの有効性の中心は、クエリ、キー、値を高次元ベクトル空間にマッピングするセルフアテンションメカニズムである。 しかし、ランダム初期化の状態からクエリ、キー、値の注意重みをトレーニングするのは簡単ではない。 本稿では,2つの手法を提案する。 (i)まず,離散コサイン変換(DCT)係数を用いたシンプルで革新的な初期化手法を導入することにより,視覚変換器の初期化問題に対処する。 提案したDCTに基づく注意初期化は,従来の初期化戦略に比べて顕著に向上し,注意機構の堅牢な基盤を提供する。 実験の結果,DCTに基づく初期化により,分類作業における視覚変換器の精度が向上することが判明した。 (II) DCTは周波数領域における画像情報を効果的にデコレーションするので、このデコレーションが圧縮に有用であることは、量子化ステップが高周波数成分の多くを破棄できるようにするためである。 そこで本研究では,視覚変換器の注目機能のための新しいDCT圧縮手法を提案する。 高周波DCT係数は通常ノイズに対応するため、入力パッチの高周波DCT成分を切断する。 我々のDCTベースの圧縮は、クエリ、キー、値の重み行列のサイズを減らします。 同じレベルの精度を維持しながら、DCT圧縮スウィン変換器は計算オーバーヘッドを大幅に低減する。

Central to the Transformer architectures' effectiveness is the self-attention mechanism, a function that maps queries, keys, and values into a high-dimensional vector space. However, training the attention weights of queries, keys, and values is non-trivial from a state of random initialization. In this paper, we propose two methods. (i) We first address the initialization problem of Vision Transformers by introducing a simple, yet highly innovative, initialization approach utilizing Discrete Cosine Transform (DCT) coefficients. Our proposed DCT-based attention initialization marks a significant gain compared to traditional initialization strategies; offering a robust foundation for the attention mechanism. Our experiments reveal that the DCT-based initialization enhances the accuracy of Vision Transformers in classification tasks. (ii) We also recognize that since DCT effectively decorrelates image information in the frequency domain, this decorrelation is useful for compression because it allows the quantization step to discard many of the higher-frequency components. Based on this observation, we propose a novel DCT-based compression technique for the attention function of Vision Transformers. Since high-frequency DCT coefficients usually correspond to noise, we truncate the high-frequency DCT components of the input patches. Our DCT-based compression reduces the size of weight matrices for queries, keys, and values. While maintaining the same level of accuracy, our DCT compressed Swin Transformers obtain a considerable decrease in the computational overhead.
翻訳日:2024-05-29 11:28:48 公開日:2024-05-28
# テキストフリーマルチドメイングラフ事前学習:グラフ基礎モデルに向けて

Text-Free Multi-domain Graph Pre-training: Toward Graph Foundation Models ( http://arxiv.org/abs/2405.13934v3 )

ライセンス: Link先を確認
Xingtong Yu, Chang Zhou, Yuan Fang, Xinming Zhang, (参考訳) さまざまな領域にまたがる幅広いグラフデータに基づいてグラフ基盤モデルをトレーニングすることは可能ですか? この目標への大きなハードルは、異なる領域のグラフがしばしば非常に異なる特性を示すという事実にある。 事前トレーニングのためのマルチドメイングラフの統合には、最初はいくつかの取り組みがあったが、主にグラフを整列させるためにテキスト記述に依存しており、そのアプリケーションはテキスト対応グラフに制限されている。 さらに、異なるソースドメインが互いに衝突したり干渉したりし、ターゲットドメインとの関係は著しく変化する。 これらの問題に対処するため,MDGPTというテキストフリーなマルチドメイングラフ事前学習・適応フレームワークを提案する。 まず、シナジスティックな事前学習のために、ソースドメインにまたがる機能を調整するために、一連のドメイントークンを提案する。 第2に、統一的なプロンプトと混合プロンプトからなる二重プロンプトを提案し、統合されたマルチドメイン知識とドメイン固有の知識の調整された混合により、ターゲットドメインをさらに適応させる。 最後に、6つの公開データセットによる広範な実験を行い、MDGPTを評価し分析する。

Given the ubiquity of graph data, it is intriguing to ask: Is it possible to train a graph foundation model on a broad range of graph data across diverse domains? A major hurdle toward this goal lies in the fact that graphs from different domains often exhibit profoundly divergent characteristics. Although there have been some initial efforts in integrating multi-domain graphs for pre-training, they primarily rely on textual descriptions to align the graphs, limiting their application to text-attributed graphs. Moreover, different source domains may conflict or interfere with each other, and their relevance to the target domain can vary significantly. To address these issues, we propose MDGPT, a text free Multi-Domain Graph Pre-Training and adaptation framework designed to exploit multi-domain knowledge for graph learning. First, we propose a set of domain tokens to to align features across source domains for synergistic pre-training. Second, we propose a dual prompts, consisting of a unifying prompt and a mixing prompt, to further adapt the target domain with unified multi-domain knowledge and a tailored mixture of domain-specific knowledge. Finally, we conduct extensive experiments involving six public datasets to evaluate and analyze MDGPT, which outperforms prior art by up to 37.9%.
翻訳日:2024-05-29 11:28:48 公開日:2024-05-28
# 北エフ量子スピン液体候補Na2Co2TeO6の面外磁気相図

Out-of-plane magnetic phase diagram of Kitaev quantum spin liquid candidate Na2Co2TeO6 ( http://arxiv.org/abs/2405.13935v2 )

ライセンス: Link先を確認
Shengzhi Zhang, Sangyun Lee, Eric Brosha, Qing Huang, Haidong Zhou, Vivien S. Zapf, Minseong Lee, (参考訳) 我々は,ハニカム磁石Na2Co2TeO6とCo3d7の相図を平面外磁場中で解析し,その相図をマッピングした。 この物質は、Coスピンと、高磁場における北エフ量子スピン液体の挙動の間において、最も近接した北エフ相互作用を示すためにこれまで提案されてきた。 低磁場下では、TN = 27Kで熱相転移を観測し、常磁性状態から正準強磁性状態へ遷移する。 磁場の印加の下では、10KからTNの間のJ = 1/2の飽和前にスピンフロップのような相転移が起こった。 10K以下では、磁気飽和前の磁気感受性(dM/dH)においてピークディップピーク構造が10〜17Tに出現し、磁気プラトーの挙動を連想させる。 磁場効果の測定は、この領域におけるディップピーク・ディップの挙動も示している。 我々のデータは、単一イオン異方性を持つXXZモデルで説明でき、おそらくは小さなKitaev と {\Gamma} の交換相互作用によって説明できる。 また、交換相互作用のエネルギースケールを制約する磁化飽和場を曖昧に決定する。

We have investigated the magnetic properties and mapped out the phase diagram of the honeycomb magnet Na2Co2TeO6 with Co 3d7 in out-of-plane magnetic fields. This material has previously been proposed to show nearest-neighbor Kitaev interactions between Co spins and maybe even Kitaev quantum spin liquid behavior in high fields. At low magnetic fields, we observe a thermal phase transition at TN = 27 K, transitioning from a paramagnetic state to a canonical ferrimagnetic state. Under the application of magnetic fields, a spin flop-like phase transition occurred before saturation of J = 1/2 between 10 K and TN. Below 10 K, a peak-dip-peak structure emerges between 10 and 17 T in the magnetic susceptibility (dM/dH) before the magnetic saturation, reminiscent of magnetic plateau behavior. The measurement of the magnetocaloric effect also shows dip-peak-dip behavior in this field range. Our data can be explained by an XXZ model with a single ion anisotropy and possibly small Kitaev and {\Gamma} exchange interactions. We also unambiguously determined the magnetization saturation field that helps constrain the energy scale of the exchange interactions
翻訳日:2024-05-29 11:28:48 公開日:2024-05-28
# DyGPrompt: 動的グラフの学習機能と時間プロンプト

DyGPrompt: Learning Feature and Time Prompts on Dynamic Graphs ( http://arxiv.org/abs/2405.13937v3 )

ライセンス: Link先を確認
Xingtong Yu, Zhenghao Liu, Yuan Fang, Xinming Zhang, (参考訳) 動的グラフは実世界で広く普及し、様々な分野にわたるオブジェクト間の動的関係をモデル化する。 動的グラフモデリングでは、動的グラフニューラルネットワーク(DGNN)が主流の手法として登場し、一般的にリンク予測タスクで事前訓練され、ノード分類などの下流タスクの目的との大きなギャップを残している。 ギャップを埋めるために、グラフ上では、プロンプトベースの学習が注目を集めている。 しかし、既存の取り組みは静的グラフに重点を置いており、動的グラフの進化を無視している。 本稿では,動的グラフモデリングのための新しい事前学習および促進フレームワークであるDyGPromptを提案する。 まず,タスクの目的と,事前学習タスクと下流タスクの動的変動のギャップに対処する2つのプロンプトを設計する。 第2に,ノードと時間の特徴が相互に特徴付けされていることを認識し,下流タスクにおけるノード時間パターンの進化をモデル化するための2つの条件ネットを提案する。 最後に、DyGPromptを3つの公開データセットに関する広範な実験により徹底的に評価、分析する。

Dynamic graphs are pervasive in the real world, modeling dynamic relations between objects across various fields. For dynamic graph modeling, dynamic graph neural networks (DGNNs) have emerged as a mainstream technique, which are generally pre-trained on the link prediction task, leaving a significant gap from the objectives of downstream tasks such as node classification. To bridge the gap, prompt-based learning has gained traction on graphs. However, existing efforts focus on static graphs, neglecting the evolution of dynamic graphs. In this paper, we propose DyGPrompt, a novel pre-training and prompting framework for dynamic graph modeling. First, we design dual prompts to address the gap in both task objectives and dynamic variations across pre-training and downstream tasks. Second, we recognize that node and time features mutually characterize each other, and propose dual condition-nets to model the evolving node-time patterns in downstream tasks. Finally, we thoroughly evaluate and analyze DyGPrompt through extensive experiments on three public datasets.
翻訳日:2024-05-29 11:28:48 公開日:2024-05-28
# RNNとしての意識

Attention as an RNN ( http://arxiv.org/abs/2405.13956v2 )

ライセンス: Link先を確認
Leo Feng, Frederick Tung, Hossein Hajimirsadeghi, Mohamed Osama Ahmed, Yoshua Bengio, Greg Mori, (参考訳) Transformersの出現はシーケンスモデリングの大きなブレークスルーとなり、GPU並列性を活用した高性能なアーキテクチャを提供することができた。 しかし、Transformerは推論時に計算コストが高く、特に低リソース設定(モバイルや組み込みデバイスなど)ではアプリケーションを制限する。 この問題に対処するために、(1) 注意を特別なリカレントニューラルネットワーク(RNN)と見なすことができ、そのRNN出力を効率的に計算できることを示すことから始める。 次に、(2)トランスフォーマーのような注目に基づく一般的なモデルは、RNNの変種と見なせることを示す。 しかし、従来のRNN(例えばLSTM)とは異なり、これらのモデルは新しいトークンで効率的に更新することはできない。 これに対応するために, 並列プレフィックススキャンアルゴリズムを用いて, 注目度を演算する新しい効率的な方法を提案する。 新しいアテンションの定式化に基づいて、(4)アテンションベースのモジュールである \textbf{Aaren} を導入する。 (i)平行して(トランスフォーマーのように)訓練するだけでなく、 (ii) 新しいトークンで効率的に更新され、推論(従来のRNNのように)に一定のメモリしか必要としない。 経験的に、AarensはTransformersに匹敵するパフォーマンスを、強化学習、イベント予測、時系列分類、時系列予測タスクの4つの一般的なシーケンシャルな問題設定に散らばった38ドルのデータセットで実現している。

The advent of Transformers marked a significant breakthrough in sequence modelling, providing a highly performant architecture capable of leveraging GPU parallelism. However, Transformers are computationally expensive at inference time, limiting their applications, particularly in low-resource settings (e.g., mobile and embedded devices). Addressing this, we (1) begin by showing that attention can be viewed as a special Recurrent Neural Network (RNN) with the ability to compute its \textit{many-to-one} RNN output efficiently. We then (2) show that popular attention-based models such as Transformers can be viewed as RNN variants. However, unlike traditional RNNs (e.g., LSTMs), these models cannot be updated efficiently with new tokens, an important property in sequence modelling. Tackling this, we (3) introduce a new efficient method of computing attention's \textit{many-to-many} RNN output based on the parallel prefix scan algorithm. Building on the new attention formulation, we (4) introduce \textbf{Aaren}, an attention-based module that can not only (i) be trained in parallel (like Transformers) but also (ii) be updated efficiently with new tokens, requiring only constant memory for inferences (like traditional RNNs). Empirically, we show Aarens achieve comparable performance to Transformers on $38$ datasets spread across four popular sequential problem settings: reinforcement learning, event forecasting, time series classification, and time series forecasting tasks while being more time and memory-efficient.
翻訳日:2024-05-29 11:18:53 公開日:2024-05-28
# 構造的非定常なデータセットからのオフライン強化学習

Offline Reinforcement Learning from Datasets with Structured Non-Stationarity ( http://arxiv.org/abs/2405.14114v2 )

ライセンス: Link先を確認
Johannes Ackermann, Takayuki Osa, Masashi Sugiyama, (参考訳) 現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。 Offline RLは、異なる行動ポリシーによって収集された遷移を使用することで、この問題を解決することを目指している。 本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。 本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。 提案手法を解析し, 簡単な連続制御タスクや, 挑戦的で高次元の移動タスクでうまく動作することを示す。 提案手法は,しばしばオラクルのパフォーマンスを達成し,ベースラインよりも優れた性能を示す。

Current Reinforcement Learning (RL) is often limited by the large amount of data needed to learn a successful policy. Offline RL aims to solve this issue by using transitions collected by a different behavior policy. We address a novel Offline RL problem setting in which, while collecting the dataset, the transition and reward functions gradually change between episodes but stay constant within each episode. We propose a method based on Contrastive Predictive Coding that identifies this non-stationarity in the offline dataset, accounts for it when training a policy, and predicts it during evaluation. We analyze our proposed method and show that it performs well in simple continuous control tasks and challenging, high-dimensional locomotion tasks. We show that our method often achieves the oracle performance and performs better than baselines.
翻訳日:2024-05-29 11:18:53 公開日:2024-05-28
# S-Eval:大規模言語モデルの安全性評価ベンチマークのための自動および適応型テスト生成

S-Eval: Automatic and Adaptive Test Generation for Benchmarking Safety Evaluation of Large Language Models ( http://arxiv.org/abs/2405.14191v3 )

ライセンス: Link先を確認
Xiaohan Yuan, Jinfeng Li, Dongxia Wang, Yuefeng Chen, Xiaofeng Mao, Longtao Huang, Hui Xue, Wenhai Wang, Kui Ren, Jingyi Wang, (参考訳) 大規模な言語モデルは、その革命的な能力にかなりの注目を集めている。 しかし、その安全性に関する懸念も高まり、モデル展開に先立って、LLMの総合的な安全性評価が緊急に必要となる。 本研究では,新しい包括的,多次元かつオープンな安全評価ベンチマークであるS-Evalを提案する。 S-Evalのコアには、LLMベースの自動テストプロンプト生成と選択フレームワークがあり、このフレームワークは、専門家によるLSM Mtのテストと、さまざまなテスト選択戦略を組み合わせることで、安全性評価のための高品質なテストスイートを自動構築する。 このプロセスの自動化の鍵は、LLMの反応の危険度スコアを定量化し、リスクタグと説明を生成できる、新しい専門家のLLM Mcである。 さらに、生成プロセスは、4つの異なるレベルを持つ慎重に設計されたリスク分類によっても導かれる。 そこで我々は,LLMに対して2万件のリスクプロンプト(中国語では10,000件,英語では10,000件)と10万件の攻撃プロンプトを含む2万件の評価プロンプトから,新たな大規模安全性評価ベンチマークを体系的に構築した。 さらに、LSMの急速な進化とそれに伴う安全上の脅威を考えると、S-Evalは柔軟に設定され、新しいリスク、攻撃、モデルを含むように適応できる。 S-Evalは20のLLMで広く評価されている。 その結果、S-Eval は既存のベンチマークと比較して LLM の安全性のリスクを反映し、報告できることがわかった。 また,パラメータ尺度,言語環境,復号化パラメータが評価に与える影響についても検討し,LLMの安全性を評価するための体系的な方法論を提供する。

Large Language Models have gained considerable attention for their revolutionary capabilities. However, there is also growing concern on their safety implications, making a comprehensive safety evaluation for LLMs urgently needed before model deployment. In this work, we propose S-Eval, a new comprehensive, multi-dimensional and open-ended safety evaluation benchmark. At the core of S-Eval is a novel LLM-based automatic test prompt generation and selection framework, which trains an expert testing LLM Mt combined with a range of test selection strategies to automatically construct a high-quality test suite for the safety evaluation. The key to the automation of this process is a novel expert safety-critique LLM Mc able to quantify the riskiness score of an LLM's response, and additionally produce risk tags and explanations. Besides, the generation process is also guided by a carefully designed risk taxonomy with four different levels, covering comprehensive and multi-dimensional safety risks of concern. Based on these, we systematically construct a new and large-scale safety evaluation benchmark for LLMs consisting of 220,000 evaluation prompts, including 20,000 base risk prompts (10,000 in Chinese and 10,000 in English) and 200,000 corresponding attack prompts derived from 10 popular adversarial instruction attacks against LLMs. Moreover, considering the rapid evolution of LLMs and accompanied safety threats, S-Eval can be flexibly configured and adapted to include new risks, attacks and models. S-Eval is extensively evaluated on 20 popular and representative LLMs. The results confirm that S-Eval can better reflect and inform the safety risks of LLMs compared to existing benchmarks. We also explore the impacts of parameter scales, language environments, and decoding parameters on the evaluation, providing a systematic methodology for evaluating the safety of LLMs.
翻訳日:2024-05-29 11:18:53 公開日:2024-05-28
# ステップ・バイ・ステップ:マルチモーダルテキスト認識のためのLLMを用いた生成核融合復号アルゴリズム

Let's Fuse Step by Step: A Generative Fusion Decoding Algorithm with LLMs for Multi-modal Text Recognition ( http://arxiv.org/abs/2405.14259v2 )

ライセンス: Link先を確認
Chan-Jan Hsu, Yi-Chang Chen, Feng-Ting Liao, Pei-Chen Ho, Yu-Hsiang Wang, Po-Chun Hsu, Da-shan Shiu, (参考訳) 本稿では,大規模言語モデル(LLM)を自動音声認識(ASR)や光学文字認識(OCR)といったマルチモーダルテキスト認識システムに統合するために利用する,新しい浅層融合フレームワークであるGFDを紹介する。 我々は,テキストトークン空間をバイトトークン空間にマッピングすることで,GFDが異なるモデルのミスマッチトークン空間をまたいで動作できるようにするために必要な公式を導出し,復号処理中にシームレスな融合を可能にする。 このフレームワークはプラグイン・アンド・プレイであり、様々な自動回帰モデルと互換性があり、機能アライメントのための再トレーニングを必要としないため、従来の融合技術の限界を克服している。 まず、異なるモデルサンプル空間の整合の複雑さを単純化することにより、GFDはLLMが認識モデルと直交するエラーを補正し、計算遅延を低減する。 第2に、LLMの文脈内学習能力はGFDによって完全に強化され、長文音声認識および命令対応音声認識における頑健性が向上する。 第三に、GFDは中国語で広く訓練されたLLMを用いて、中国語のテキスト認識において不十分なファジング認識モデルを可能にする。 評価の結果,GFD は ASR および OCR タスクの性能を著しく向上し,NTUML2021 ベンチマークでは ASR が最先端に到達した。 GFDは、ステップバイステップフュージョンを通じて既存のトレーニング済みモデルの活用に広く適用可能な統一されたソリューションを提供する。

We introduce "Generative Fusion Decoding" (GFD), a novel shallow fusion framework, utilized to integrate Large Language Models (LLMs) into multi-modal text recognition systems such as automatic speech recognition (ASR) and optical character recognition (OCR). We derive the formulas necessary to enable GFD to operate across mismatched token spaces of different models by mapping text token space to byte token space, enabling seamless fusion during the decoding process. The framework is plug-and-play, compatible with various auto-regressive models, and does not require re-training for feature alignment, thus overcoming limitations of previous fusion techniques. We highlight three main advantages of GFD: First, by simplifying the complexity of aligning different model sample spaces, GFD allows LLMs to correct errors in tandem with the recognition model, reducing computation latencies. Second, the in-context learning ability of LLMs is fully capitalized by GFD, increasing robustness in long-form speech recognition and instruction aware speech recognition. Third, GFD enables fusing recognition models deficient in Chinese text recognition with LLMs extensively trained on Chinese. Our evaluation demonstrates that GFD significantly improves performance in ASR and OCR tasks, with ASR reaching state-of-the-art in the NTUML2021 benchmark. GFD provides a significant step forward in model integration, offering a unified solution that could be widely applicable to leveraging existing pre-trained models through step by step fusion.
翻訳日:2024-05-29 11:18:53 公開日:2024-05-28
# 自然パラメトリックダウンコンバージョン過程におけるSchrodinger cat-like状態の形成

The formation of Schrodinger cat-like states in the process of spontaneous parametric down-conversion ( http://arxiv.org/abs/2405.14526v2 )

ライセンス: Link先を確認
Ranjit Singh, Alexander E. Teretenkov, (参考訳) 自然パラメトリックダウンコンバージョン過程(SPDC)におけるシュロディンガー猫様状態の形成は、ポンプモードが量子的かつ劣化していると考えられるときに研究される。 シュロディンガー・キャット様状態は基本モードと第二調和モードで形成され、両方のモードの負性性は特定の初期状態条件と相互作用長に対して研究される。 ウィグナー関数は、質的にシュロディンガーの猫のような状態を視覚化するために用いられる。

The formation of Schrodinger cat-like states during the spontaneous parametric down-conversion process (SPDC) is studied when the pump mode is considered quantum and depleted. The Schrodinger cat-like state is formed in the fundamental and second harmonic modes, and the negativity in both modes is studied for certain initial state conditions and interaction lengths. The Wigner function is used to visualize qualitatively Schrodinger cat-like states.
翻訳日:2024-05-29 11:18:53 公開日:2024-05-28
# サブストラクタ対策が必要なサブストラクタ:大規模言語モデルにおける代表的・親和性バイアスの評価のための2つの指標

Subtle Biases Need Subtler Measures: Dual Metrics for Evaluating Representative and Affinity Bias in Large Language Models ( http://arxiv.org/abs/2405.14555v3 )

ライセンス: Link先を確認
Abhishek Kumar, Sarfaroz Yunusov, Ali Emami, (参考訳) LLM(Large Language Models)の研究は、しばしば微妙な偏見を無視している。 本研究は, LLM内の2つのバイアスに対処する: 代表バイアスは, LLMが特定のアイデンティティグループの経験を反映した出力を生成する傾向を示し, 特定の物語や視点に対するモデルの評価的嗜好を反映する親和性バイアスである。 本稿では,これらのバイアスを測定するために,代表バイアススコア(RBS)と親和性バイアススコア(ABS)の2つの新しい指標を紹介した。 我々の分析では、白人、ストレート、男性と関連する身元を選好する著名なLSMにおいて、顕著な偏見が明らかとなった。 さらに,親和性バイアスを調べた結果,各モデルに特徴的な評価パターンがみられた。 この傾向は人間の評価にも見られ、人間と機械の偏見の複雑な相互作用を浮き彫りにしている。

Research on Large Language Models (LLMs) has often neglected subtle biases that, although less apparent, can significantly influence the models' outputs toward particular social narratives. This study addresses two such biases within LLMs: representative bias, which denotes a tendency of LLMs to generate outputs that mirror the experiences of certain identity groups, and affinity bias, reflecting the models' evaluative preferences for specific narratives or viewpoints. We introduce two novel metrics to measure these biases: the Representative Bias Score (RBS) and the Affinity Bias Score (ABS), and present the Creativity-Oriented Generation Suite (CoGS), a collection of open-ended tasks such as short story writing and poetry composition, designed with customized rubrics to detect these subtle biases. Our analysis uncovers marked representative biases in prominent LLMs, with a preference for identities associated with being white, straight, and men. Furthermore, our investigation of affinity bias reveals distinctive evaluative patterns within each model, akin to `bias fingerprints'. This trend is also seen in human evaluators, highlighting a complex interplay between human and machine bias perceptions.
翻訳日:2024-05-29 11:18:53 公開日:2024-05-28
# 整数スケール: LLMのより高速な微粒化のためのフリーランチ

Integer Scale: A Free Lunch for Faster Fine-grained Quantization of LLMs ( http://arxiv.org/abs/2405.14597v2 )

ライセンス: Link先を確認
Qingyuan Li, Ran Meng, Yiduo Li, Bo Zhang, Yifan Lu, Yerui Sun, Lin Ma, Yuchen Xie, (参考訳) Integer Scaleは,既存の微粒化量子化手法における推論ボトルネックを,類似の精度を維持しつつ効果的に解決する,大規模言語モデルの学習後量子化手法である。 Integer Scaleは、追加のキャリブレーションや微調整を必要としないため、無料のランチである。 ほとんどの微細な量子化法では、プラグアンドプレイが使用できる。 統合により、最大で1.85倍のエンド・ツー・エンドのスピードが元のものと同等の精度で向上する。 さらに,提案した整数スケールのオーケストレーションと微粒化により,Mixtral-8x7BモデルとLLaMA-3モデルの量子化の難しさを無視できる性能劣化で解決し,それぞれFP16モデルと比較すると,エンドツーエンドの高速化が2.13xと2.31xとなる。

We introduce Integer Scale, a novel post-training quantization scheme for large language models that effectively resolves the inference bottleneck in current fine-grained quantization approaches while maintaining similar accuracies. Integer Scale is a free lunch as it requires no extra calibration or fine-tuning which will otherwise incur additional costs. It can be used plug-and-play for most fine-grained quantization methods. Its integration results in at most 1.85x end-to-end speed boost over the original counterpart with comparable accuracy. Additionally, due to the orchestration of the proposed Integer Scale and fine-grained quantization, we resolved the quantization difficulty for Mixtral-8x7B and LLaMA-3 models with negligible performance degradation, and it comes with an end-to-end speed boost of 2.13x, and 2.31x compared with their FP16 versions respectively.
翻訳日:2024-05-29 11:18:53 公開日:2024-05-28
# 連続テスト時間適応制御

Controllable Continual Test-Time Adaptation ( http://arxiv.org/abs/2405.14602v3 )

ライセンス: Link先を確認
Ziqi Shi, Fan Lyu, Ye Liu, Fanhua Shang, Fuyuan Hu, Wei Feng, Zhang Zhang, Liang Wang, (参考訳) 連続テスト時間適応(CTTA)は、ソースドメインでトレーニングされたモデルが元のソースデータにアクセスすることなく、テスト中に継続的に変化する条件に適応しなければならない、新しくて困難なタスクである。 CTTAは制御不能なドメインシフトによってエラーの蓄積が難しく、カテゴリ間の決定境界が曖昧になる。 既存のCTTA法は主にドメインシフトの抑制に重点を置いており、教師なしテストフェーズでは不十分であることが証明されている。 対照的に、これらのシフトを抑えるのではなく、ガイドする新しいアプローチを導入する。 具体的には、$\textbf{C}$ontrollable $\textbf{Co}$ntinual $\textbf{T}$est-$\textbf{T}$ime $\textbf{A}$daptation (C-CoTTA)を提案する。 さらに,本手法は,モデルのドメイン変換に対する感度を低減し,カテゴリシフトの規模を最小化する。 一方, t-SNEプロットなどの定性的解析により, 提案手法の理論的妥当性が検証された。

Continual Test-Time Adaptation (CTTA) is an emerging and challenging task where a model trained in a source domain must adapt to continuously changing conditions during testing, without access to the original source data. CTTA is prone to error accumulation due to uncontrollable domain shifts, leading to blurred decision boundaries between categories. Existing CTTA methods primarily focus on suppressing domain shifts, which proves inadequate during the unsupervised test phase. In contrast, we introduce a novel approach that guides rather than suppresses these shifts. Specifically, we propose $\textbf{C}$ontrollable $\textbf{Co}$ntinual $\textbf{T}$est-$\textbf{T}$ime $\textbf{A}$daptation (C-CoTTA), which explicitly prevents any single category from encroaching on others, thereby mitigating the mutual influence between categories caused by uncontrollable shifts. Moreover, our method reduces the sensitivity of model to domain transformations, thereby minimizing the magnitude of category shifts. Extensive quantitative experiments demonstrate the effectiveness of our method, while qualitative analyses, such as t-SNE plots, confirm the theoretical validity of our approach.
翻訳日:2024-05-29 11:18:53 公開日:2024-05-28
# 視覚知覚分析による多モード大言語モデルの記述

Explaining Multi-modal Large Language Models by Analyzing their Vision Perception ( http://arxiv.org/abs/2405.14612v2 )

ライセンス: Link先を確認
Loris Giulivi, Giacomo Boracchi, (参考訳) MLLM(Multi-modal Large Language Models)は、画像やテキストなどの様々なモダリティにまたがるコンテンツの理解と生成において、顕著な能力を示す。 しかし、それらの解釈性は依然として課題であり、重要なアプリケーションでの採用を妨げる。 本研究では,画像埋め込み成分に着目し,MLLMの解釈可能性を高める新しい手法を提案する。 オープンワールドのローカライゼーションモデルとMLLMを組み合わせることで、同じビジョンの埋め込みからテキストとオブジェクトのローカライゼーション出力を同時に生成できる新しいアーキテクチャを構築する。 提案したアーキテクチャは解釈可能性を大幅に向上させ,任意の出力トークンを説明するための新しいサリエンシマップを設計し,モデル幻覚を識別し,セマンティック・逆転摂動によるモデルバイアスを評価する。

Multi-modal Large Language Models (MLLMs) have demonstrated remarkable capabilities in understanding and generating content across various modalities, such as images and text. However, their interpretability remains a challenge, hindering their adoption in critical applications. This research proposes a novel approach to enhance the interpretability of MLLMs by focusing on the image embedding component. We combine an open-world localization model with a MLLM, thus creating a new architecture able to simultaneously produce text and object localization outputs from the same vision embedding. The proposed architecture greatly promotes interpretability, enabling us to design a novel saliency map to explain any output token, to identify model hallucinations, and to assess model biases through semantic adversarial perturbations.
翻訳日:2024-05-29 11:18:53 公開日:2024-05-28
# OpFlowTalker: オプティカルフロー誘導によるリアルで自然な顔生成

OpFlowTalker: Realistic and Natural Talking Face Generation via Optical Flow Guidance ( http://arxiv.org/abs/2405.14709v2 )

ライセンス: Link先を確認
Shuheng Ge, Haoyu Xing, Li Zhang, Xiangqian Wu, (参考訳) リアルで、自然で、口で読めるビデオを作るのは、まだまだ難しい課題だ。 従来の研究は主に、フレーム間の遷移と時間的依存関係の滑らかさを見越しながら、単一フレーム画像の生成と整合性に焦点を当てていた。 これは、特に複雑な顔データや音声コンテンツを扱う際の視覚的品質や効果を損なうことがあり、しばしば意味的に矛盾する視覚錯覚を引き起こした。 特に、合成されたビデオは、通常、非組織的な唇の動きを特徴としており、理解と認識が困難である。 これらの制約を克服するため,フレーム間の連続性とセマンティック一貫性を向上し,顔画像生成を誘導するための光フローの応用を提案する。 我々は,直接画像予測ではなく,音声入力から予測される光フロー変化を利用する新しい手法である"OpFlowTalker"を提案する。 この方法は画像の遷移を円滑にし、変化を意味のある内容と整合させる。 さらに、単一のフレームの独立生成を置き換えるためにシーケンス融合技術を採用し、コンテキスト情報を保持し、時間的一貫性を維持する。 また,全顔と唇の動きを制御し,局所力学のバランスをとることで視覚合成を最適化する光フロー同期モジュールを開発した。 さらに、合成ビデオのリップ可読性を正確に測定するVisual Text Consistency Score(VTCS)を導入する。 広範囲にわたる経験的証拠が我々のアプローチの有効性を証明している。

Creating realistic, natural, and lip-readable talking face videos remains a formidable challenge. Previous research primarily concentrated on generating and aligning single-frame images while overlooking the smoothness of frame-to-frame transitions and temporal dependencies. This often compromised visual quality and effects in practical settings, particularly when handling complex facial data and audio content, which frequently led to semantically incongruent visual illusions. Specifically, synthesized videos commonly featured disorganized lip movements, making them difficult to understand and recognize. To overcome these limitations, this paper introduces the application of optical flow to guide facial image generation, enhancing inter-frame continuity and semantic consistency. We propose "OpFlowTalker", a novel approach that utilizes predicted optical flow changes from audio inputs rather than direct image predictions. This method smooths image transitions and aligns changes with semantic content. Moreover, it employs a sequence fusion technique to replace the independent generation of single frames, thus preserving contextual information and maintaining temporal coherence. We also developed an optical flow synchronization module that regulates both full-face and lip movements, optimizing visual synthesis by balancing regional dynamics. Furthermore, we introduce a Visual Text Consistency Score (VTCS) that accurately measures lip-readability in synthesized videos. Extensive empirical evidence validates the effectiveness of our approach.
翻訳日:2024-05-29 11:18:53 公開日:2024-05-28
# 大規模言語モデルを用いたインフォーマティブテキスト評価の緩和

Eliciting Informative Text Evaluations with Large Language Models ( http://arxiv.org/abs/2405.15077v2 )

ライセンス: Link先を確認
Yuxuan Lu, Shengwei Xu, Yichi Zhang, Yuqing Kong, Grant Schoenebeck, (参考訳) ピア予測機構は、証明可能な保証で高品質なフィードバックを動機付ける。 しかし、現在の手法は、多重選択やスカラー数のような比較的単純なレポートにのみ適用される。 我々は,これらの手法をテキストベースレポートの大規模領域に拡張することを目指しており,近年の大規模言語モデルの発展を反映している。 これは、ピアレビュー、eコマースの顧客レビュー、ソーシャルメディアへのコメントなど、さまざまなフィードバックチャネルにおいて、テキストフィードバックが標準となっているため、ピア予測メカニズムの適用性を大幅に向上させる。 本稿では,GPPM(Generative Peer Prediction Mechanism)とGSPPM(Generative Synopsis Peer Prediction Mechanism)の2つのメカニズムを紹介する。 これらのメカニズムはLSMを予測因子として利用し、あるエージェントのレポートから仲間のレポートの予測にマッピングする。 理論的には、LLM予測が十分正確であれば、我々のメカニズムは(近似)ベイズナッシュ平衡として高い努力と真理を動機付けることができる。 実験により,Yelp レビューデータセットと ICLR OpenReview データセットという,2つの実際のデータセットで実施した実験を通じて,我々のメカニズムの有効性を確認した。 ICLRデータセットでは、人間によるレビュー、GPT-4生成レビュー、GPT-3.5生成レビューの3つの品質レベルを、期待されるスコアの観点から区別することが可能です。 さらに、GSPPMはLPM生成レビューをGPPMよりも効果的にペナルティ化する。

Peer prediction mechanisms motivate high-quality feedback with provable guarantees. However, current methods only apply to rather simple reports, like multiple-choice or scalar numbers. We aim to broaden these techniques to the larger domain of text-based reports, drawing on the recent developments in large language models. This vastly increases the applicability of peer prediction mechanisms as textual feedback is the norm in a large variety of feedback channels: peer reviews, e-commerce customer reviews, and comments on social media. We introduce two mechanisms, the Generative Peer Prediction Mechanism (GPPM) and the Generative Synopsis Peer Prediction Mechanism (GSPPM). These mechanisms utilize LLMs as predictors, mapping from one agent's report to a prediction of her peer's report. Theoretically, we show that when the LLM prediction is sufficiently accurate, our mechanisms can incentivize high effort and truth-telling as an (approximate) Bayesian Nash equilibrium. Empirically, we confirm the efficacy of our mechanisms through experiments conducted on two real datasets: the Yelp review dataset and the ICLR OpenReview dataset. We highlight the results that on the ICLR dataset, our mechanisms can differentiate three quality levels -- human-written reviews, GPT-4-generated reviews, and GPT-3.5-generated reviews in terms of expected scores. Additionally, GSPPM penalizes LLM-generated reviews more effectively than GPPM.
翻訳日:2024-05-29 11:18:53 公開日:2024-05-28
# マルチタスク学習における隠れタスクの敵対的攻撃

Adversarial Attacks on Hidden Tasks in Multi-Task Learning ( http://arxiv.org/abs/2405.15244v2 )

ライセンス: Link先を確認
Yu Zhe, Rei Nagaike, Daiki Nishiyama, Kazuto Fukuchi, Jun Sakuma, (参考訳) 深層学習モデルは、入力データに対するわずかな摂動が誤分類につながる敵攻撃の影響を受けやすい。 敵攻撃は、標的分類器に関する情報にアクセスすることでますます効果的になる。 ひとつのモデルが複数のタスクを同時に学習するマルチタスク学習のコンテキストでは、攻撃者は限られた情報で特定のタスクの脆弱性を悪用する。 本稿では,隠蔽対象タスクと隠蔽対象タスクのラベル付きデータに関するモデルアクセスは利用できないが,非ターゲットタスクに関するモデルアクセスが利用可能であるマルチタスク分類器内での隠蔽タスクの攻撃可能性について検討する。 本研究では,非ターゲットタスクからの知識とマルチタスクモデルの共有バックボーンネットワークを利用して,対象タスクに関する知識を忘れるように強制する,新たな敵攻撃手法を提案する。 CelebAおよびDeepFashionデータセットによる実験結果から,可視タスクの性能を維持しながら隠れタスクの精度を低下させる手法の有効性が示され,マルチタスク分類器における敵の脆弱性の理解に寄与した。

Deep learning models are susceptible to adversarial attacks, where slight perturbations to input data lead to misclassification. Adversarial attacks become increasingly effective with access to information about the targeted classifier. In the context of multi-task learning, where a single model learns multiple tasks simultaneously, attackers may aim to exploit vulnerabilities in specific tasks with limited information. This paper investigates the feasibility of attacking hidden tasks within multi-task classifiers, where model access regarding the hidden target task and labeled data for the hidden target task are not available, but model access regarding the non-target tasks is available. We propose a novel adversarial attack method that leverages knowledge from non-target tasks and the shared backbone network of the multi-task model to force the model to forget knowledge related to the target task. Experimental results on CelebA and DeepFashion datasets demonstrate the effectiveness of our method in degrading the accuracy of hidden tasks while preserving the performance of visible tasks, contributing to the understanding of adversarial vulnerabilities in multi-task classifiers.
翻訳日:2024-05-29 11:18:53 公開日:2024-05-28
# DeTikZify:TikZによる科学図とスケッチのためのグラフィックプログラムの合成

DeTikZify: Synthesizing Graphics Programs for Scientific Figures and Sketches with TikZ ( http://arxiv.org/abs/2405.15306v2 )

ライセンス: Link先を確認
Jonas Belouadi, Simone Paolo Ponzetto, Steffen Eger, (参考訳) 紙にアイデアをスケッチするのは比較的簡単だが、高品質の科学的人物を作るのは時間と手間がかかり難い。 さらに、意味情報を保存しているフォーマットに格納されていない既存のフィギュアを再現することは、同様に複雑である。 この問題を解決するために,スケッチや既存図形に基づくTikZグラフィクスプログラムとして科学図形を自動的に合成する,新しいマルチモーダル言語モデルDeTikZifyを導入する。 これを実現するために、これまでで最大のTikZデータセットであるDaTikZv2と、360k以上の人間が作成したTikZグラフィックスを含むSketchFig、手書きのスケッチと対応する科学図とを組み合わせたデータセットであるSciCap++、さまざまな科学図と関連するメタデータのコレクションであるSciCap++の3つの新しいデータセットを作成しました。 私たちは、SciCap++とDaTikZv2でDeTikZifyをトレーニングし、SketchFigから学んだ合成スケッチをトレーニングします。 また、MCTSベースの推論アルゴリズムを導入し、DeTikZifyが追加のトレーニングを必要とせずに出力を反復的に洗練できるようにする。 DeTikZifyは,TikZプログラムの合成において商業的Claude 3とGPT-4Vよりも優れた性能を示し,MCTSアルゴリズムによりその性能を効果的に向上させる。 コード、モデル、データセットを公開しています。

Creating high-quality scientific figures can be time-consuming and challenging, even though sketching ideas on paper is relatively easy. Furthermore, recreating existing figures that are not stored in formats preserving semantic information is equally complex. To tackle this problem, we introduce DeTikZify, a novel multimodal language model that automatically synthesizes scientific figures as semantics-preserving TikZ graphics programs based on sketches and existing figures. To achieve this, we create three new datasets: DaTikZv2, the largest TikZ dataset to date, containing over 360k human-created TikZ graphics; SketchFig, a dataset that pairs hand-drawn sketches with their corresponding scientific figures; and SciCap++, a collection of diverse scientific figures and associated metadata. We train DeTikZify on SciCap++ and DaTikZv2, along with synthetically generated sketches learned from SketchFig. We also introduce an MCTS-based inference algorithm that enables DeTikZify to iteratively refine its outputs without the need for additional training. Through both automatic and human evaluation, we demonstrate that DeTikZify outperforms commercial Claude 3 and GPT-4V in synthesizing TikZ programs, with the MCTS algorithm effectively boosting its performance. We make our code, models, and datasets publicly available.
翻訳日:2024-05-29 11:18:53 公開日:2024-05-28
# MambaVC: 選択された状態空間で視覚的圧縮を学ぶ

MambaVC: Learned Visual Compression with Selective State Spaces ( http://arxiv.org/abs/2405.15413v3 )

ライセンス: Link先を確認
Shiyu Qin, Jinpeng Wang, Yimin Zhou, Bin Chen, Tianci Luo, Baoyi An, Tao Dai, Shutao Xia, Yaowei Wang, (参考訳) 学習された視覚圧縮はマルチメディアにおいて重要かつ活発なタスクである。 既存のアプローチでは、コンテンツ配信をモデル化し、冗長性を排除するためのCNNやTransformerベースの様々な設計が検討されている。 近年、状態空間モデル (SSM) は、その長距離モデリング能力と効率性から、将来性を示している。 このことに触発されて、私たちは視覚的圧縮のためのSSMを探究する第一歩を踏み出した。 本稿では,SSMに基づくシンプルで強力で効率的な圧縮ネットワークであるMambaVCを紹介する。 MambaVCは、ダウンサンプリング後の非線形アクティベーション関数として2次元選択的スキャン(2DSS)モジュールを備えた視覚状態空間(VSS)ブロックを開発する。 圧縮ベンチマークデータセットでは、MambaVCはより低い計算およびメモリオーバーヘッドでより優れたレート歪み性能を達成する。 具体的には、CNN と Transformer のそれぞれ 9.3% と 15.6% を Kodak で上回り、計算を 42% と 24% に減らし、メモリの 12% と 71% を節約した。 MambaVCは高解像度の画像でさらに改善され、現実世界のアプリケーションにおけるその可能性とスケーラビリティを強調している。 また、異なるネットワーク設計の包括的な比較も提供し、MambaVCの利点を裏付けています。 コードはhttps://github.com/QinSY123/2024-MambaVCで入手できる。

Learned visual compression is an important and active task in multimedia. Existing approaches have explored various CNN- and Transformer-based designs to model content distribution and eliminate redundancy, where balancing efficacy (i.e., rate-distortion trade-off) and efficiency remains a challenge. Recently, state-space models (SSMs) have shown promise due to their long-range modeling capacity and efficiency. Inspired by this, we take the first step to explore SSMs for visual compression. We introduce MambaVC, a simple, strong and efficient compression network based on SSM. MambaVC develops a visual state space (VSS) block with a 2D selective scanning (2DSS) module as the nonlinear activation function after each downsampling, which helps to capture informative global contexts and enhances compression. On compression benchmark datasets, MambaVC achieves superior rate-distortion performance with lower computational and memory overheads. Specifically, it outperforms CNN and Transformer variants by 9.3% and 15.6% on Kodak, respectively, while reducing computation by 42% and 24%, and saving 12% and 71% of memory. MambaVC shows even greater improvements with high-resolution images, highlighting its potential and scalability in real-world applications. We also provide a comprehensive comparison of different network designs, underscoring MambaVC's advantages. Code is available at https://github.com/QinSY123/2024-MambaVC.
翻訳日:2024-05-29 11:18:53 公開日:2024-05-28
# Fast-PGM:高速確率的グラフィカルモデル学習と推論

Fast-PGM: Fast Probabilistic Graphical Model Learning and Inference ( http://arxiv.org/abs/2405.15605v2 )

ライセンス: Link先を確認
Jiantong Jiang, Zeyi Wen, Peiyu Yang, Atif Mansoor, Ajmal Mian, (参考訳) 確率的グラフィカルモデル(PGM)は、不確実性のある複雑なシステムをモデル化し、データから貴重な洞察を抽出するための強力なフレームワークとして機能する。 しかし、ユーザーは効率とユーザビリティの観点から、PGMを問題に適用する際の課題に直面している。 本稿では,PGM学習と推論のための効率的かつオープンソースのライブラリであるFast-PGMについて述べる。 Fast-PGMは、構造とパラメータ学習を含むPGMの包括的なタスクをサポートし、正確で近似的な推論をサポートし、計算とメモリの最適化と並列化技術を通じてタスクの効率を向上させる。 同時に、Fast-PGMはフレキシブルなビルディングブロックを開発者に提供し、学習者に詳細なドキュメンテーションを提供し、エキスパートでないユーザフレンドリーなインターフェースを提供する。 Fast-PGMのソースコードはhttps://github.com/jjiantong/FastPGMで公開されている。

Probabilistic graphical models (PGMs) serve as a powerful framework for modeling complex systems with uncertainty and extracting valuable insights from data. However, users face challenges when applying PGMs to their problems in terms of efficiency and usability. This paper presents Fast-PGM, an efficient and open-source library for PGM learning and inference. Fast-PGM supports comprehensive tasks on PGMs, including structure and parameter learning, as well as exact and approximate inference, and enhances efficiency of the tasks through computational and memory optimizations and parallelization techniques. Concurrently, Fast-PGM furnishes developers with flexible building blocks, furnishes learners with detailed documentation, and affords non-experts user-friendly interfaces, thereby ameliorating the usability of PGMs to users across a spectrum of expertise levels. The source code of Fast-PGM is available at https://github.com/jjiantong/FastPGM.
翻訳日:2024-05-29 11:09:02 公開日:2024-05-28
# 移動学習における幾何学的複雑度が神経崩壊に及ぼす影響

The Impact of Geometric Complexity on Neural Collapse in Transfer Learning ( http://arxiv.org/abs/2405.15706v2 )

ライセンス: Link先を確認
Michael Munn, Benoit Dherin, Javier Gonzalvo, (参考訳) 近年のコンピュータビジョンと言語モデルにおける顕著な進歩の多くは、大規模な基礎モデルの事前学習によるトランスファーラーニングの成功によるものである。 しかし、この経験的成功を説明する理論的枠組みは不完全であり、現在も研究の活発な領域である。 損失面の平坦さと神経崩壊は、最近、トレーニング前の基礎となる暗黙のバイアスに光を当てる有用な事前学習指標として現れている。 本稿では,これらの2つの概念を関連づける基本的なメカニズムとして,モデルが学習した表現の幾何学的複雑さについて考察する。 実験と理論を通じて、事前学習されたネットワークの幾何学的複雑さに影響を与えるメカニズムが神経崩壊に影響を及ぼすことを示す。 さらに、この幾何学的複雑性の影響が、新しいクラスの神経崩壊にどのように一般化するかを示し、特に数ショット設定において、下流タスクにおけるより良いパフォーマンスを促進させる。

Many of the recent remarkable advances in computer vision and language models can be attributed to the success of transfer learning via the pre-training of large foundation models. However, a theoretical framework which explains this empirical success is incomplete and remains an active area of research. Flatness of the loss surface and neural collapse have recently emerged as useful pre-training metrics which shed light on the implicit biases underlying pre-training. In this paper, we explore the geometric complexity of a model's learned representations as a fundamental mechanism that relates these two concepts. We show through experiments and theory that mechanisms which affect the geometric complexity of the pre-trained network also influence the neural collapse. Furthermore, we show how this effect of the geometric complexity generalizes to the neural collapse of new classes as well, thus encouraging better performance on downstream tasks, particularly in the few-shot setting.
翻訳日:2024-05-29 11:09:02 公開日:2024-05-28
# ソフトコントラスト学習による多言語アライメントの改善

Improving Multi-lingual Alignment Through Soft Contrastive Learning ( http://arxiv.org/abs/2405.16155v2 )

ライセンス: Link先を確認
Minsu Park, Seyeon Choi, Chanyeol Choi, Jun-Seong Kim, Jy-yong Sohn, (参考訳) 適切な多言語文表現を作ることは、言語間下流タスクで高いパフォーマンスを達成するために重要である。 本研究では,事前学習した単言語埋め込みモデルによって測定された文の類似性に基づいて,多言語埋め込みを整合させる新しい手法を提案する。 翻訳文ペアが与えられた場合、言語間埋め込み間の類似性は、単言語教師モデルで測定された文の類似性に従うように、多言語モデルを訓練する。 本手法は,文間の類似性として定義されたソフトラベルを用いたコントラスト学習とみなすことができる。 5つの言語に対する実験結果から,ソフトラベルとの対比損失は,bitextマイニングタスクやSTSタスクのベンチマークにおいて,従来のハードラベルとの対比損失よりもはるかに優れていたことが明らかとなった。 さらに,本手法は,Tatoebaデータセットに対するLaBSEを含む既存の多言語埋め込みよりも優れていた。 コードはhttps://github.com/YAI12xLinq-B/IMASCLで入手できる。

Making decent multi-lingual sentence representations is critical to achieve high performances in cross-lingual downstream tasks. In this work, we propose a novel method to align multi-lingual embeddings based on the similarity of sentences measured by a pre-trained mono-lingual embedding model. Given translation sentence pairs, we train a multi-lingual model in a way that the similarity between cross-lingual embeddings follows the similarity of sentences measured at the mono-lingual teacher model. Our method can be considered as contrastive learning with soft labels defined as the similarity between sentences. Our experimental results on five languages show that our contrastive loss with soft labels far outperforms conventional contrastive loss with hard labels in various benchmarks for bitext mining tasks and STS tasks. In addition, our method outperforms existing multi-lingual embeddings including LaBSE, for Tatoeba dataset. The code is available at https://github.com/YAI12xLinq-B/IMASCL
翻訳日:2024-05-29 11:09:02 公開日:2024-05-28
# 電力グリッド時系列測定における異常と変化点検出の組み合わせによる負荷推定精度の向上

Acquiring Better Load Estimates by Combining Anomaly and Change-point Detection in Power Grid Time-series Measurements ( http://arxiv.org/abs/2405.16164v2 )

ライセンス: Link先を確認
Roel Bouman, Linda Schmeitz, Luco Buise, Jacco Heres, Yuliya Shapovalova, Tom Heskes, (参考訳) 本稿では,電力系統における負荷推定を改善するために,自動異常および切替イベントフィルタリングのための新しい手法を提案する。 教師なしの手法を教師なしの最適化で活用することにより、本手法は、教師なしデータに対する堅牢で一般化可能な性能を確保しつつ、解釈可能性を向上させる。 実験を通じて、変化点検出のためのバイナリセグメンテーションと異常検出のための統計的プロセス制御の組み合わせが最も効果的な戦略として現れる。 その結果, 濾過が適用されない場合に, 洗浄電位が明らかになることが示唆された。 自動負荷推定もかなり正確で、約90%の見積もりが10%のエラーマージン以内に落ち、テストセット内の60の計測で最小値と最大値の両方で1つの大きな障害しか発生しない。 提案手法の解釈可能性により,重要なインフラ計画に特に適し,意思決定プロセスの強化が図られる。

In this paper we present novel methodology for automatic anomaly and switch event filtering to improve load estimation in power grid systems. By leveraging unsupervised methods with supervised optimization, our approach prioritizes interpretability while ensuring robust and generalizable performance on unseen data. Through experimentation, a combination of binary segmentation for change point detection and statistical process control for anomaly detection emerges as the most effective strategy, specifically when ensembled in a novel sequential manner. Results indicate the clear wasted potential when filtering is not applied. The automatic load estimation is also fairly accurate, with approximately 90% of estimates falling within a 10% error margin, with only a single significant failure in both the minimum and maximum load estimates across 60 measurements in the test set. Our methodology's interpretability makes it particularly suitable for critical infrastructure planning, thereby enhancing decision-making processes.
翻訳日:2024-05-29 11:09:02 公開日:2024-05-28
# VOODOO XP:VRテレプレゼンスのワンショットヘッド再現

VOODOO XP: Expressive One-Shot Head Reenactment for VR Telepresence ( http://arxiv.org/abs/2405.16204v2 )

ライセンス: Link先を確認
Phong Tran, Egor Zakharov, Long-Nhat Ho, Liwen Hu, Adilbek Karmanov, Aviral Agarwal, McLean Goldwhite, Ariana Bermudez Venegas, Anh Tuan Tran, Hao Li, (参考訳) VOODOO XP: 入力ドライバビデオから高表現力の表情を生成できる3D対応ワンショットヘッド再現法と1枚の2Dポートレートについて紹介する。 我々のソリューションはリアルタイムでビューに一貫性があり、キャリブレーションや微調整なしで即座に利用できます。 我々は,モノクラー映像設定と双方向通信のためのエンドツーエンドVRテレプレゼンスシステムについて実演する。 2次元頭部再現法と比較して、3D認識アプローチは、被写体のアイデンティティを保ち、新しいカメラのポーズに対するビュー一貫性のある顔形状を確保することを目的としており、没入型用途に適している。 様々な顔のゆがみ技術が導入されたが、最先端の3D認識神経再生技術は表現力に欠けており、複雑な顔の表情を再現することができない。 本稿では,ドライバの表情を直接入力源の3Dリフトモジュールのトランスフォーマーブロックに転送する,新しいクロスリファクターアーキテクチャを提案する。 本研究は, 表面中立化と3次元リフトドフロンダル化を併用した, 粗大な戦略を基礎とした, 革新的多段階自己超越的手法を用いて, 高い有効解離が可能であることを示す。 さらに私たちは、新しいヘッド再現ソリューションを高忠実度VRテレプレゼンスシステムに統合し、任意の写真からパーソナライズされたニューラルヘッドアバターを瞬時に構築し、ヘッドセットを使ってそれを生き返らせることができます。 本研究では,多種多様な被写体と捕獲条件の集合に対して,表現性および類似性保存の観点から,最先端の性能を実証する。

We introduce VOODOO XP: a 3D-aware one-shot head reenactment method that can generate highly expressive facial expressions from any input driver video and a single 2D portrait. Our solution is real-time, view-consistent, and can be instantly used without calibration or fine-tuning. We demonstrate our solution on a monocular video setting and an end-to-end VR telepresence system for two-way communication. Compared to 2D head reenactment methods, 3D-aware approaches aim to preserve the identity of the subject and ensure view-consistent facial geometry for novel camera poses, which makes them suitable for immersive applications. While various facial disentanglement techniques have been introduced, cutting-edge 3D-aware neural reenactment techniques still lack expressiveness and fail to reproduce complex and fine-scale facial expressions. We present a novel cross-reenactment architecture that directly transfers the driver's facial expressions to transformer blocks of the input source's 3D lifting module. We show that highly effective disentanglement is possible using an innovative multi-stage self-supervision approach, which is based on a coarse-to-fine strategy, combined with an explicit face neutralization and 3D lifted frontalization during its initial training stage. We further integrate our novel head reenactment solution into an accessible high-fidelity VR telepresence system, where any person can instantly build a personalized neural head avatar from any photo and bring it to life using the headset. We demonstrate state-of-the-art performance in terms of expressiveness and likeness preservation on a large set of diverse subjects and capture conditions.
翻訳日:2024-05-29 11:09:02 公開日:2024-05-28
# M^3$GPT:モーション理解と生成のための高度なマルチモーダルマルチタスクフレームワーク

$M^3$GPT: An Advanced Multimodal, Multitask Framework for Motion Comprehension and Generation ( http://arxiv.org/abs/2405.16273v2 )

ライセンス: Link先を確認
Mingshuang Luo, Ruibing Hou, Hong Chang, Zimo Liu, Yaowei Wang, Shiguang Shan, (参考訳) 本稿では,先進的な \textbf{M}ultimodal, \textbf{M}ultitask framework for \textbf{M}otion comprehension and generation について述べる。 M^3$GPTは3つの基本原理で機能する。 第一の焦点は、様々な動き関連モダリティのための統一表現空間を作ることである。 我々は、テキスト、音楽、モーション/ダンスなどのマルチモーダル制御および生成信号に対して離散ベクトル量子化を用い、単一の語彙で大きな言語モデル(LLM)へのシームレスな統合を可能にする。 2つ目は、原動空間でモデル生成を直接モデル化することである。 この戦略は、離散トークン化器に関連する情報損失を回避し、より詳細で包括的なモデル生成をもたらす。 第3に、M^3$GPTは様々な動き関連タスク間の接続とシナジーをモデル化することを学ぶ。 LLMの最も親しみやすくよく理解されたモダリティであるテキストは、異なる動作タスク間の接続を確立するブリッジとして利用され、相互強化を容易にする。 我々の知る限り、M^3$GPTは複数の信号に基づいて動きを解釈・生成できる最初のモデルである。 大規模な実験では、様々な動作関連タスクにまたがるM^3$GPTの優れた性能と、非常に困難なタスクに対する強力なゼロショット一般化能力が強調されている。

This paper presents $M^3$GPT, an advanced \textbf{M}ultimodal, \textbf{M}ultitask framework for \textbf{M}otion comprehension and generation. $M^3$GPT operates on three fundamental principles. The first focuses on creating a unified representation space for various motion-relevant modalities. We employ discrete vector quantization for multimodal control and generation signals, such as text, music and motion/dance, enabling seamless integration into a large language model (LLM) with a single vocabulary. The second involves modeling model generation directly in the raw motion space. This strategy circumvents the information loss associated with discrete tokenizer, resulting in more detailed and comprehensive model generation. Third, $M^3$GPT learns to model the connections and synergies among various motion-relevant tasks. Text, the most familiar and well-understood modality for LLMs, is utilized as a bridge to establish connections between different motion tasks, facilitating mutual reinforcement. To our knowledge, $M^3$GPT is the first model capable of comprehending and generating motions based on multiple signals. Extensive experiments highlight $M^3$GPT's superior performance across various motion-relevant tasks and its powerful zero-shot generalization capabilities for extremely challenging tasks.
翻訳日:2024-05-29 11:09:02 公開日:2024-05-28
# あいまいさを画像化する - Winograd Schema Challengeの視覚的ツイスト

Picturing Ambiguity: A Visual Twist on the Winograd Schema Challenge ( http://arxiv.org/abs/2405.16277v2 )

ライセンス: Link先を確認
Brendan Park, Madeline Janecek, Naser Ezzati-Jivan, Yifeng Li, Ali Emami, (参考訳) 大規模言語モデル(LLM)は、Winograd Schema Challenge (WSC)のようなタスクで顕著な成功を収め、高度なテキストの常識推論を示している。 しかし、テキストと画像の理解が不可欠であるマルチモーダル領域にこの推論を適用することは、依然として大きな課題である。 この問題を解決するために,マルチモーダルコンテキストにおける代名詞の曖昧さに関するテキスト・ツー・イメージ・モデルを探索する新しいデータセットであるWinoVisを紹介した。 熱マップ解析にGPT-4と拡散注意属性マップ(DAAM)を用いて,他の視覚処理課題から曖昧さを発音するモデルの能力を分離する新しい評価フレームワークを提案する。 連続したモデルバージョンの評価では、段階的な進歩にもかかわらず、Stable Diffusion 2.0はWinoVisで56.7%の精度を達成し、ランダムな推測をわずかに上回っている。 さらなるエラー分析は、複雑な視覚の世界を解釈し、相互作用する能力において、テキスト・ツー・イメージ・モデルを進めることを目的とした将来の研究にとって重要な領域を特定する。

Large Language Models (LLMs) have demonstrated remarkable success in tasks like the Winograd Schema Challenge (WSC), showcasing advanced textual common-sense reasoning. However, applying this reasoning to multimodal domains, where understanding text and images together is essential, remains a substantial challenge. To address this, we introduce WinoVis, a novel dataset specifically designed to probe text-to-image models on pronoun disambiguation within multimodal contexts. Utilizing GPT-4 for prompt generation and Diffusion Attentive Attribution Maps (DAAM) for heatmap analysis, we propose a novel evaluation framework that isolates the models' ability in pronoun disambiguation from other visual processing challenges. Evaluation of successive model versions reveals that, despite incremental advancements, Stable Diffusion 2.0 achieves a precision of 56.7% on WinoVis, only marginally surpassing random guessing. Further error analysis identifies important areas for future research aimed at advancing text-to-image models in their ability to interpret and interact with the complex visual world.
翻訳日:2024-05-29 11:09:02 公開日:2024-05-28
# EIC(AID(2)E)のためのAI支援検出器設計

AI-Assisted Detector Design for the EIC (AID(2)E) ( http://arxiv.org/abs/2405.16279v2 )

ライセンス: Link先を確認
M. Diefenthaler, C. Fanelli, L. O. Gerlach, W. Guan, T. Horn, A. Jentsch, M. Lin, K. Nagai, H. Nayak, C. Pecar, K. Suresh, A. Vossen, T. Wang, T. Wenaus, (参考訳) 人工知能は、将来のElectron Ion ColliderでePICのような複雑な大規模検出器の設計を変革する可能性がある。 ePIC実験は、遠方および遠方領域に追加の検知システムを備えた中央検出器を備えており、機械的および幾何学的制限によって制約された性能、物理学的到達度、コストなど、多くの設計パラメータと目的を取り入れている。 このプロジェクトの目的は、複雑な設計に取り組むために最先端の多目的最適化を利用する、スケーラブルで分散AI支援型EIC(AID(2)E)検出器の開発である。 ePICソフトウェアスタックとGeant4シミュレーションによってサポートされ、我々のアプローチは透明なパラメータ化と高度なAI機能から恩恵を受ける。 このワークフローは、CERN LHCのATLASやルビン天文台、RHICのsPHENIXといった主要な実験で使用されるPanDAとiDDSシステムを利用して、ePIC検出器シミュレーションの計算集約的な要求を管理する。 PanDAシステムの拡張は、ユーザビリティ、スケーラビリティ、自動化、監視に重点を置いている。 最終的にこのプロジェクトは、堅牢な設計能力を確立し、分散AI支援ワークフローをePIC検出器に適用し、その応用をEICの第2検出器(Detector-2)の設計、キャリブレーションとアライメントタスクに拡張することを目的としている。 さらに、我々は、この最適化プロセスを通じて特定される複雑な多次元トレードオフを効率的にナビゲートする高度なデータサイエンスツールを開発している。

Artificial Intelligence is poised to transform the design of complex, large-scale detectors like the ePIC at the future Electron Ion Collider. Featuring a central detector with additional detecting systems in the far forward and far backward regions, the ePIC experiment incorporates numerous design parameters and objectives, including performance, physics reach, and cost, constrained by mechanical and geometric limits. This project aims to develop a scalable, distributed AI-assisted detector design for the EIC (AID(2)E), employing state-of-the-art multiobjective optimization to tackle complex designs. Supported by the ePIC software stack and using Geant4 simulations, our approach benefits from transparent parameterization and advanced AI features. The workflow leverages the PanDA and iDDS systems, used in major experiments such as ATLAS at CERN LHC, the Rubin Observatory, and sPHENIX at RHIC, to manage the compute intensive demands of ePIC detector simulations. Tailored enhancements to the PanDA system focus on usability, scalability, automation, and monitoring. Ultimately, this project aims to establish a robust design capability, apply a distributed AI-assisted workflow to the ePIC detector, and extend its applications to the design of the second detector (Detector-2) in the EIC, as well as to calibration and alignment tasks. Additionally, we are developing advanced data science tools to efficiently navigate the complex, multidimensional trade-offs identified through this optimization process.
翻訳日:2024-05-29 11:09:02 公開日:2024-05-28
# 医用テキストデータの要約におけるオープンソース言語モデルの比較分析

Comparative Analysis of Open-Source Language Models in Summarizing Medical Text Data ( http://arxiv.org/abs/2405.16295v2 )

ライセンス: Link先を確認
Yuhao Chen, Zhimu Wang, Bo Wen, Farhana Zulkernine, (参考訳) 医療ノートや対話における構造化されていないテキストには、豊富な情報が含まれている。 近年のLarge Language Models (LLMs) の進歩は、非構造化テキストデータに対する回答および要約タスクにおいて優れた性能を示し、従来のテキスト解析手法よりも優れている。 しかし、医学図表のような分野固有のデータに対して、異なるLCMの性能を客観的に評価し報告する科学的研究は文献に欠けている。 GPT-4 をアセスメントとして,医療要約タスクにおける Llama2 や Mistral などのオープンソース LLM の性能評価手法を提案する。 LLMの定量的評価に対する革新的なアプローチは、品質管理を可能にし、特定のタスクに有効なLLMの選択を支援し、デジタルヘルスにおける知識発見を促進する。

Unstructured text in medical notes and dialogues contains rich information. Recent advancements in Large Language Models (LLMs) have demonstrated superior performance in question answering and summarization tasks on unstructured text data, outperforming traditional text analysis approaches. However, there is a lack of scientific studies in the literature that methodically evaluate and report on the performance of different LLMs, specifically for domain-specific data such as medical chart notes. We propose an evaluation approach to analyze the performance of open-source LLMs such as Llama2 and Mistral for medical summarization tasks, using GPT-4 as an assessor. Our innovative approach to quantitative evaluation of LLMs can enable quality control, support the selection of effective LLMs for specific tasks, and advance knowledge discovery in digital health.
翻訳日:2024-05-29 11:09:02 公開日:2024-05-28
# 量子ウォークに基づくサーチ補完アルゴリズムの回路実装と解析

Circuit Implementation and Analysis of a Quantum-Walk Based Search Complement Algorithm ( http://arxiv.org/abs/2405.16322v2 )

ライセンス: Link先を確認
Allan Wing-Bocanegra, Carlos E. Quintero-Narvaez, Salvador E. Venegas-Andraca, (参考訳) 我々は、SKWアルゴリズムとしても知られるShenvi、Kempe、Whaleyによって作成された量子ウォークに基づく探索アルゴリズムの修正版を提案する。 このアルゴリズムでは,自己ループ付き2^n$完全グラフと,探索の託宣として機能するアダマール演算子に基づく摂動コイン演算子の積によって構成されるように,システムの進化演算子を変更した。 修正された進化作用素は、元のアルゴリズムのように反対の挙動、すなわちターゲット状態を測定する確率を減少させる。 この新しい振る舞いを $\textit{search complement}$ と呼びます。 多重グラフと行列法を用いて, 単一離散時間ウォークにおいて, 目標状態に関連付けられたノードへの経路が少なくなることにより, 新たなアルゴリズムが目標状態の確率を減少させることを示すことができた。 探索補完アルゴリズムは、IBM量子プロセッサ$\textit{ibmq_manila}$で実験的に実行され、統計距離$\ell_1\leq 0.0895$を得た。

We propose a modified version of the quantum walk-based search algorithm created by Shenvi, Kempe and Whaley, also known as the SKW algorithm. In our version of the algorithm, we modified the evolution operator of the system so that it is composed by the product of the shift operator associated to the $2^n$-complete graph with self-loops and a perturbed coin operator based on the Hadamard operator that works as an oracle for the search. The modified evolution operator leads the opposite behavior as in the original algorithm, that is, the probability to measure the target state is reduced. We call this new behavior the $\textit{search complement}$. Taking a multigraph and matrix approach, we were able to explain that the new algorithm decreases the probability of the target state given that there are less paths that lead towards the node that is associated to the target state in a Unitary Coined Discrete-Time Quantum Walk. The search complement algorithm was executed experimentally on IBM quantum processor $\textit{ibmq_manila}$ obtaining statistical distances $\ell_1\leq 0.0895$ when decreasing the probability of one state out of four.
翻訳日:2024-05-29 11:09:02 公開日:2024-05-28
# Devil's Advocate: LLMエージェントの予測反射

Devil's Advocate: Anticipatory Reflection for LLM Agents ( http://arxiv.org/abs/2405.16334v2 )

ライセンス: Link先を確認
Haoyu Wang, Tao Li, Zhiwei Deng, Dan Roth, Yang Li, (参考訳) 本研究では,LLMエージェントにイントロスペクションを付与し,複雑なタスクを解く上での一貫性と適応性を向上する手法を提案する。 我々のアプローチは, LLMエージェントに対して, あるタスクを管理可能なサブタスク(つまり計画の作成)に分解し, それらの動作の適合性や結果について継続的に検査するように促す。 イントロスペクティブ・イントロスペクティブ・イントロスペクティブ・イントロスペクティブ・イントロスペクティブ・イントロスペクティブ(intro 1) 行動実行前の潜在的な失敗及び代替策の予見 2 計画実行における最大限の努力を確保するため、サブタスク目標との事後調整及び救済の事後追跡 3)今後の戦略改善に向けた計画完了に関する総合的な見直し。 Web環境での実践的なタスクのためにWebArena内で,この手法をデプロイし,実験することにより,既存のゼロショット手法よりも優れた性能を示す。 実験結果から,我々のイントロスペクション駆動型アプローチは,計画実行の堅牢なメカニズムを通じて,予期せぬ課題をナビゲートするエージェントの能力を向上するだけでなく,課題達成に必要な試行回数や計画修正を削減して効率を向上させることが示唆された。

In this work, we introduce a novel approach that equips LLM agents with introspection, enhancing consistency and adaptability in solving complex tasks. Our approach prompts LLM agents to decompose a given task into manageable subtasks (i.e., to make a plan), and to continuously introspect upon the suitability and results of their actions. We implement a three-fold introspective intervention: 1) anticipatory reflection on potential failures and alternative remedy before action execution, 2) post-action alignment with subtask objectives and backtracking with remedy to ensure utmost effort in plan execution, and 3) comprehensive review upon plan completion for future strategy refinement. By deploying and experimenting with this methodology - a zero-shot approach - within WebArena for practical tasks in web environments, our agent demonstrates superior performance over existing zero-shot methods. The experimental results suggest that our introspection-driven approach not only enhances the agent's ability to navigate unanticipated challenges through a robust mechanism of plan execution, but also improves efficiency by reducing the number of trials and plan revisions needed to achieve a task.
翻訳日:2024-05-29 11:09:02 公開日:2024-05-28
# STRIDE: 戦略的かつインタラクティブな意思決定のためのツール支援LDMエージェントフレームワーク

STRIDE: A Tool-Assisted LLM Agent Framework for Strategic and Interactive Decision-Making ( http://arxiv.org/abs/2405.16376v2 )

ライセンス: Link先を確認
Chuanhao Li, Runhan Yang, Tiankai Li, Milad Bafarassat, Kourosh Sharifi, Dirk Bergemann, Zhuoran Yang, (参考訳) GPT-4のような大規模言語モデル(LLM)は自然言語処理に革命をもたらしており、言語能力と推論能力が顕著である。 しかし, 戦略的マルチエージェント意思決定環境への応用は, 数学的推論の貧弱さ, 後続命令の難しさ, 誤った情報を生成する傾向など, 重大な制約によって妨げられている。 これらの欠陥は、曖昧なゲームルール、長期計画、未知の環境での探索、敵の動きを期待する戦略的かつ対話的なタスクにおけるパフォーマンスを妨げる。 本稿では,これらの障害を克服するために,メモリと特殊なツールを備えた新たなLLMエージェントフレームワークを提案する。 我々は,このツールを経済的に重要な環境,特に二国間交渉とマルチエージェントおよび動的メカニズム設計に展開する。 さまざまな戦略的意思決定問題におけるフレームワークのパフォーマンスを評価するために,定量的な指標を用いている。 以上の結果から,LLMの戦略的意思決定能力を大幅に向上する可能性が示唆された。 我々は、現在のLLMモデルの本質的な制限を強調しながら、ターゲットとなる拡張による改善を実証し、対話型環境のためのLLMアプリケーションの将来的な開発に向けて有望な方向性を示唆する。

Large Language Models (LLMs) like GPT-4 have revolutionized natural language processing, showing remarkable linguistic proficiency and reasoning capabilities. However, their application in strategic multi-agent decision-making environments is hampered by significant limitations including poor mathematical reasoning, difficulty in following instructions, and a tendency to generate incorrect information. These deficiencies hinder their performance in strategic and interactive tasks that demand adherence to nuanced game rules, long-term planning, exploration in unknown environments, and anticipation of opponents' moves. To overcome these obstacles, this paper presents a novel LLM agent framework equipped with memory and specialized tools to enhance their strategic decision-making capabilities. We deploy the tools in a number of economically important environments, in particular bilateral bargaining and multi-agent and dynamic mechanism design. We employ quantitative metrics to assess the framework's performance in various strategic decision-making problems. Our findings establish that our enhanced framework significantly improves the strategic decision-making capability of LLMs. While we highlight the inherent limitations of current LLM models, we demonstrate the improvements through targeted enhancements, suggesting a promising direction for future developments in LLM applications for interactive environments.
翻訳日:2024-05-29 11:09:02 公開日:2024-05-28
# 人間の映像生成における現実性向上のための遠近的前景と背景運動

Disentangling Foreground and Background Motion for Enhanced Realism in Human Video Generation ( http://arxiv.org/abs/2405.16393v2 )

ライセンス: Link先を確認
Jinlin Liu, Kai Yu, Mengyang Feng, Xiefan Guo, Miaomiao Cui, (参考訳) 近年のヒトビデオ合成の進歩により、安定拡散モデルの適用による高品質なビデオの生成が可能となった。 しかし、既存の手法は主に、背景を完全に静的にしながら、ポーズ情報によって導かれる人的要素(前景)のみをアニメーションすることに集中している。 これとは対照的に、本物で高品質なビデオでは、背景はしばしば前景の動きと調和して動的に調整される。 異なる動き表現を用いて動きを分離することで、前景と背景のダイナミクスを同時に学習する手法を提案する。 人間のフィギュアは、ポーズベースの動きを利用して、複雑なアクションをキャプチャするアニメーションです。 逆に,前景活動と環境変化の自然な相互作用を反映して,動きのモデル化にスパーストラッキングポイントを用いる。 この斬新な動き描写アプローチによって強化された実世界の映像をトレーニングし、このモデルにより、前景と周囲の状況の両方でコヒーレントな動きを示す映像を生成する。 誤りを蓄積することなく、より長いシーケンスにビデオ生成をさらに拡張するために、クリップ・バイ・クリップ・ジェネレーション・ストラテジーを採用し、各ステップにグローバルな特徴を導入する。 これらのセグメント間のシームレスな連続性を確保するため、生成したクリップの最終フレームと入力ノイズをリンクして、後続するクリップを発生させ、物語の流れを維持する。 逐次生成プロセスを通じて、初期参照画像の特徴表現をネットワークに注入し、他の方法で生じる可能性のある累積色の不整合を効果的に排除する。 本手法は,前景動作と応答性背景ダイナミクスとの調和性を示すビデオの制作において,従来手法よりも優れていることを示す実証的評価である。

Recent advancements in human video synthesis have enabled the generation of high-quality videos through the application of stable diffusion models. However, existing methods predominantly concentrate on animating solely the human element (the foreground) guided by pose information, while leaving the background entirely static. Contrary to this, in authentic, high-quality videos, backgrounds often dynamically adjust in harmony with foreground movements, eschewing stagnancy. We introduce a technique that concurrently learns both foreground and background dynamics by segregating their movements using distinct motion representations. Human figures are animated leveraging pose-based motion, capturing intricate actions. Conversely, for backgrounds, we employ sparse tracking points to model motion, thereby reflecting the natural interaction between foreground activity and environmental changes. Training on real-world videos enhanced with this innovative motion depiction approach, our model generates videos exhibiting coherent movement in both foreground subjects and their surrounding contexts. To further extend video generation to longer sequences without accumulating errors, we adopt a clip-by-clip generation strategy, introducing global features at each step. To ensure seamless continuity across these segments, we ingeniously link the final frame of a produced clip with input noise to spawn the succeeding one, maintaining narrative flow. Throughout the sequential generation process, we infuse the feature representation of the initial reference image into the network, effectively curtailing any cumulative color inconsistencies that may otherwise arise. Empirical evaluations attest to the superiority of our method in producing videos that exhibit harmonious interplay between foreground actions and responsive background dynamics, surpassing prior methodologies in this regard.
翻訳日:2024-05-29 11:09:02 公開日:2024-05-28
# モデルに因果概念を組み込む - ディープラーニングにおける因果オパシティを超えて

Causal Concept Embedding Models: Beyond Causal Opacity in Deep Learning ( http://arxiv.org/abs/2405.16507v2 )

ライセンス: Link先を確認
Gabriele Dominici, Pietro Barbiero, Mateo Espinosa Zarlenga, Alberto Termine, Martin Gjoreski, Giuseppe Marra, Marc Langheinrich, (参考訳) 因果不透明性(英: Causal opacity)とは、ディープニューラルネットワーク(DNN)推論の根底にある「隠れた」因果構造を理解することの難しさを指す。 これにより、特に高度なシナリオにおいて、最先端のDNNベースのシステムを頼りにし、検証することができない。 このため、因果不透明性は、深層学習、解釈可能性、因果性の交差における鍵となるオープンな課題である。 この研究は、因果概念埋め込みモデル(Causal Concept Embedding Models, Causal CEMs)を導入することで、このギャップに対処する。 実験の結果,Causal CEMは次のようなことが可能であった。 (i)因果オパクモデルの一般化性能に適合する。 二 介入及び反事実シナリオの分析を支援して、モデルの因果解釈性を改善し、その信頼性及び公正性の有効検証を支援すること。 三 修正後の下流の精度を向上するとともに、特定事例に対する説明の正確性を向上し、中間推論ステップの誤予測を可能にすること。

Causal opacity denotes the difficulty in understanding the "hidden" causal structure underlying a deep neural network's (DNN) reasoning. This leads to the inability to rely on and verify state-of-the-art DNN-based systems especially in high-stakes scenarios. For this reason, causal opacity represents a key open challenge at the intersection of deep learning, interpretability, and causality. This work addresses this gap by introducing Causal Concept Embedding Models (Causal CEMs), a class of interpretable models whose decision-making process is causally transparent by design. The results of our experiments show that Causal CEMs can: (i) match the generalization performance of causally-opaque models, (ii) support the analysis of interventional and counterfactual scenarios, thereby improving the model's causal interpretability and supporting the effective verification of its reliability and fairness, and (iii) enable human-in-the-loop corrections to mispredicted intermediate reasoning steps, boosting not just downstream accuracy after corrections but also accuracy of the explanation provided for a specific instance.
翻訳日:2024-05-29 11:09:02 公開日:2024-05-28
# 言語エージェントのためのメタタスク計画

Meta-Task Planning for Language Agents ( http://arxiv.org/abs/2405.16510v2 )

ライセンス: Link先を確認
Cong Zhang, Derrick Goh Xin Deik, Dexun Li, Hao Zhang, Yong Liu, (参考訳) ニューラルネットワークモデルの急速な進歩は、インテリジェントエージェント研究の新たな飛躍を引き起こした。 従来のエージェントとは異なり、大規模言語モデルベースエージェント(LLMエージェント)は、より優れた推論と一般化能力のために、人工知能(AGI)を実現するための有望なパラダイムとして登場した。 LLMエージェントが現実のタスクで成功するためには,効果的な計画が不可欠である。 現在の計画手法は通常、タスクを実行可能なアクションシーケンスに変換する。 しかし、複雑なタスクを細粒度で実行可能であるか最適な順序を決定することは、しばしば不均一なアクションの長い連鎖を構成することを必要とするが、依然として困難である。 本稿では,メタタスク計画(Meta-Task Planning, MTP)について紹介する。 各メタタスクは実行可能アクションにマッピングされる。 MTPはTravelPlannerとAPI-Bankの2つの厳格なベンチマークで評価された。 特に、MTPはTravelPlannerで平均$\sim40\%$成功率を達成し、最先端(SOTA)ベースライン(2.92\%$)よりもはるかに高く、API-BankでReActで$LLM_{api}$-4を上回り、LCMをマルチエージェントシステムに統合する可能性を示している。

The rapid advancement of neural language models has sparked a new surge of intelligent agent research. Unlike traditional agents, large language model-based agents (LLM agents) have emerged as a promising paradigm for achieving artificial general intelligence (AGI) due to their superior reasoning and generalization capabilities. Effective planning is crucial for the success of LLM agents in real-world tasks, making it a highly pursued topic in the community. Current planning methods typically translate tasks into executable action sequences. However, determining a feasible or optimal sequence for complex tasks at fine granularity, which often requires compositing long chains of heterogeneous actions, remains challenging. This paper introduces Meta-Task Planning (MTP), a zero-shot methodology for collaborative LLM-based multi-agent systems that simplifies complex task planning by decomposing it into a hierarchy of subordinate tasks, or meta-tasks. Each meta-task is then mapped into executable actions. MTP was assessed on two rigorous benchmarks, TravelPlanner and API-Bank. Notably, MTP achieved an average $\sim40\%$ success rate on TravelPlanner, significantly higher than the state-of-the-art (SOTA) baseline ($2.92\%$), and outperforming $LLM_{api}$-4 with ReAct on API-Bank by $\sim14\%$, showing the immense potential of integrating LLM with multi-agent systems.
翻訳日:2024-05-29 11:09:02 公開日:2024-05-28
# テキスト・画像生成型AIシステムの自動脱獄

Automatic Jailbreaking of the Text-to-Image Generative AI Systems ( http://arxiv.org/abs/2405.16567v2 )

ライセンス: Link先を確認
Minseon Kim, Hyomin Lee, Boqing Gong, Huishuai Zhang, Sung Ju Hwang, (参考訳) 最近のAIシステムは、情報検索、言語生成、大規模言語モデル(LLM)に基づく画像生成といった様々なタスクにおいて、人的パフォーマンスを超越した、非常に強力なパフォーマンスを示している。 同時に、LLMのアライメントを回避して悪意のあるコンテンツの発生を引き起こす様々な安全性リスクがあり、これはしばしばジェイルブレイクと呼ばれる。 しかし、以前の作品のほとんどはLLMにおけるテキストベースのジェイルブレイクのみに焦点を当てており、テキスト・ツー・イメージ(T2I)生成システムのジェイルブレイクは比較的見過ごされている。 本稿では,ChatGPT,Copilot,Geminiなどの商用T2I生成システムの著作権侵害における安全性を,ナイーブなプロンプトで評価する。 この実証実験から、コピロとジェミニがそれぞれ12%と17%の攻撃でブロックしているのに対し、ChatGPTは84%しかブロックしていないことがわかった。 さらに、安全ガードをバイパスするプロンプトを生成するT2I生成システムのための、より強力な自動脱獄パイプラインを提案する。 我々の自動ジェイルブレイクフレームワークは、LLMオプティマイザを利用して、重み付けや勾配計算なしに生成された画像からの違反の程度を最大化するプロンプトを生成する。 驚いたことに、我々の単純で効果的なアプローチは、ChatGPTを11.0%のブロックレートでジェイルブレイクし、著作権のあるコンテンツをその76%で生成する。 最後に, ポストジェネレーションフィルタリングやマシンアンラーニング技術など, 様々な防衛戦略を探求するが, それらが不十分であることから, より強力な防御機構の必要性が示唆された。

Recent AI systems have shown extremely powerful performance, even surpassing human performance, on various tasks such as information retrieval, language generation, and image generation based on large language models (LLMs). At the same time, there are diverse safety risks that can cause the generation of malicious contents by circumventing the alignment in LLMs, which are often referred to as jailbreaking. However, most of the previous works only focused on the text-based jailbreaking in LLMs, and the jailbreaking of the text-to-image (T2I) generation system has been relatively overlooked. In this paper, we first evaluate the safety of the commercial T2I generation systems, such as ChatGPT, Copilot, and Gemini, on copyright infringement with naive prompts. From this empirical study, we find that Copilot and Gemini block only 12% and 17% of the attacks with naive prompts, respectively, while ChatGPT blocks 84% of them. Then, we further propose a stronger automated jailbreaking pipeline for T2I generation systems, which produces prompts that bypass their safety guards. Our automated jailbreaking framework leverages an LLM optimizer to generate prompts to maximize degree of violation from the generated images without any weight updates or gradient computation. Surprisingly, our simple yet effective approach successfully jailbreaks the ChatGPT with 11.0% block rate, making it generate copyrighted contents in 76% of the time. Finally, we explore various defense strategies, such as post-generation filtering and machine unlearning techniques, but found that they were inadequate, which suggests the necessity of stronger defense mechanisms.
翻訳日:2024-05-29 10:59:04 公開日:2024-05-28
# ID-to-3D:Score Distillation Smplingによる表現型ID誘導型3Dヘッド

ID-to-3D: Expressive ID-guided 3D Heads via Score Distillation Sampling ( http://arxiv.org/abs/2405.16570v2 )

ライセンス: Link先を確認
Francesca Babiloni, Alexandros Lattas, Jiankang Deng, Stefanos Zafeiriou, (参考訳) そこで本研究では,ID-to-3Dとテキスト誘導型3次元頭部のアンタングル表現を生成する手法を提案する。 提案手法の基盤は,タスク固有の2次元拡散モデルと相まって構成性に支えられている。 まず、軽量な表現認識およびID認識アーキテクチャで基礎モデルを拡張し、利用可能なトレーニングパラメータの0.2%だけを微調整することで、幾何学とテクスチャ生成のための2D先行モデルを作成します。 次に,各被験者の表現にニューラルパラメトリック表現を併用し,高精度な幾何学とアルベドテクスチャの多段階生成を行う。 この強力な顔のアイデンティティ埋め込みと神経表現を組み合わせることで、顔の特徴だけでなく、アクセサリーや毛髪の正確な再構築が可能になり、ゲームやテレプレゼンスのためのレンダリング可能なアセットを提供することができる。 本研究は, 人的資産の大規模な3次元キャプチャーデータセットに頼ることなく, 未知の3次元アイデンティティの 'world'' に一般化し, アイデンティティ一貫性と高品質なテクスチャと幾何生成の先例のないレベルを達成した。

We propose ID-to-3D, a method to generate identity- and text-guided 3D human heads with disentangled expressions, starting from even a single casually captured in-the-wild image of a subject. The foundation of our approach is anchored in compositionality, alongside the use of task-specific 2D diffusion models as priors for optimization. First, we extend a foundational model with a lightweight expression-aware and ID-aware architecture, and create 2D priors for geometry and texture generation, via fine-tuning only 0.2% of its available training parameters. Then, we jointly leverage a neural parametric representation for the expressions of each subject and a multi-stage generation of highly detailed geometry and albedo texture. This combination of strong face identity embeddings and our neural representation enables accurate reconstruction of not only facial features but also accessories and hair and can be meshed to provide render-ready assets for gaming and telepresence. Our results achieve an unprecedented level of identity-consistent and high-quality texture and geometry generation, generalizing to a ``world'' of unseen 3D identities, without relying on large 3D captured datasets of human assets.
翻訳日:2024-05-29 10:59:04 公開日:2024-05-28
# 微調整されたスパース・オブ・エクササイズにおけるエキスパートの選抜方法の確率的有効性

A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts ( http://arxiv.org/abs/2405.16646v2 )

ライセンス: Link先を確認
Mohammed Nowaz Rabbani Chowdhury, Meng Wang, Kaoutar El Maghraoui, Naigang Wang, Pin-Yu Chen, Christopher Carothers, (参考訳) 疎結合のエキスパート(MoE)アーキテクチャは異なるサブネットワーク、すなわち訓練可能なルータを介して異なるサブネットワークに異なる入力を送信する。 MoEは大規模モデルのトレーニング計算を大幅に削減するが、ダウンストリームタスクではメモリや計算コストがかかる可能性がある。 モデルプルーニングは推論計算の削減に人気があるが、MoEアーキテクチャにおけるその応用は明らかにされていない。 我々の知る限り、本論文は、微調整されたMoEモデルのエキスパートを刈り取るための、初めて、証明可能な効率のよい技術を提供する。 理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更した専門家のプルーニングの優先順位付けは、テスト精度の維持を保証し、モデルサイズと計算要求を大幅に削減する。 我々の理論解析は、単純化されたMoEアーキテクチャのバイナリ分類タスクを中心にしているが、我々は、CIFAR10、CIFAR100、ImageNetなどのベンチマークデータセットに基づいて、VMoEやE3MoEのような大視的MoEモデルで検証する。

The sparsely gated mixture of experts (MoE) architecture sends different inputs to different subnetworks, i.e., experts, through trainable routers. MoE reduces the training computation significantly for large models, but its deployment can be still memory or computation expensive for some downstream tasks. Model pruning is a popular approach to reduce inference computation, but its application in MoE architecture is largely unexplored. To the best of our knowledge, this paper provides the first provably efficient technique for pruning experts in finetuned MoE models. We theoretically prove that prioritizing the pruning of the experts with a smaller change of the routers l2 norm from the pretrained model guarantees the preservation of test accuracy, while significantly reducing the model size and the computational requirements. Although our theoretical analysis is centered on binary classification tasks on simplified MoE architecture, our expert pruning method is verified on large vision MoE models such as VMoE and E3MoE finetuned on benchmark datasets such as CIFAR10, CIFAR100, and ImageNet.
翻訳日:2024-05-29 10:59:04 公開日:2024-05-28
# 大規模知識洗浄

Large Scale Knowledge Washing ( http://arxiv.org/abs/2405.16720v2 )

ライセンス: Link先を確認
Yu Wang, Ruihan Wu, Zexue He, Xiusi Chen, Julian McAuley, (参考訳) 大規模な言語モデルは、世界知識を記憶する上で印象的な能力を示しており、これは、個人の情報の記憶、有毒または敏感な知識、著作権のあるコンテンツの記憶に関する懸念につながっている。 本稿では,大規模な知識洗浄の問題を紹介し,膨大な事実知識の学習に焦点をあてる。 従来のアンラーニング手法は通常、逆損失を定義し、バックプロパゲーションによってモデルを更新するが、これはモデルの流れや推論能力に影響を与える可能性がある。 既存の作業では、ダウンストリームタスクの認識を必要とする機能を失うことを防ぐために、ダウンストリームタスクから追加のデータが導入されている。 未学習のトレードオフをコントロールし、既存の能力を維持することも難しい。 この目的のために,モデル編集手法にインスピレーションを得て,知識と推論が無関係であるという仮説に基づいて,デコーダのみの大規模言語モデルにおけるMLP層を更新するLAW(Large Scale Washing)を提案する。 我々は、特定のMLP層の重みを更新するために、未学習の知識で新しい目的を導出する。 実験の結果,推論能力を維持しつつ,目標知識を忘れることにおけるLAWの有効性が示された。 コードはhttps://github.com/wangyu-ustc/LargeScaleWashing.comでオープンソース化される。

Large language models show impressive abilities in memorizing world knowledge, which leads to concerns regarding memorization of private information, toxic or sensitive knowledge, and copyrighted content. We introduce the problem of Large Scale Knowledge Washing, focusing on unlearning an extensive amount of factual knowledge. Previous unlearning methods usually define the reverse loss and update the model via backpropagation, which may affect the model's fluency and reasoning ability or even destroy the model due to extensive training with the reverse loss. Existing works introduce additional data from downstream tasks to prevent the model from losing capabilities, which requires downstream task awareness. Controlling the tradeoff of unlearning and maintaining existing capabilities is also challenging. To this end, we propose LAW (Large Scale Washing) to update the MLP layers in decoder-only large language models to perform knowledge washing, as inspired by model editing methods and based on the hypothesis that knowledge and reasoning are disentanglable. We derive a new objective with the knowledge to be unlearned to update the weights of certain MLP layers. Experimental results demonstrate the effectiveness of LAW in forgetting target knowledge while maintaining reasoning ability. The code will be open-sourced at https://github.com/wangyu-ustc/LargeScaleWashing.
翻訳日:2024-05-29 10:59:04 公開日:2024-05-28
# CARL: 同種画像登録のためのフレームワーク

CARL: A Framework for Equivariant Image Registration ( http://arxiv.org/abs/2405.16738v2 )

ライセンス: Link先を確認
Hastings Greer, Lin Tian, Francois-Xavier Vialard, Roland Kwitt, Raul San Jose Estepar, Marc Niethammer, (参考訳) 画像登録は、一対の画像間の空間対応を推定する。 これらの推定は一般にディープネットワークによる数値最適化や回帰によって得られる。 このような推定器の望ましい特性は、入力画像の変形の下で、画像対に対する対応推定(例えば、真のオラクル対応)を維持することである。 形式的には、推定子は所望の画像変換のクラスに同値であるべきである。 本研究では,多段階深層登録網の文脈における所望の等価性について慎重に分析する。 これらの分析に基づく。 1)$[U,U]$同値(入力画像の同じ変形に対するネットワーク同値)と$[W,U]$同値(入力画像が異なる変形を行うことができる場合)の概念を導入する。 2) 適度な多段階登録設定において、第1段階が$[W,U]$同値であり、他のすべてのステップが$[U,U]$同値である場合、全体的な$[W,U]$同値に対して十分であることを示す。 3) 共通の変位予測ネットワークは、より強力な$[W,U]$同値ではなく、翻訳に対して$[U,U]$同値しか示さないことを示す。 4) 多段階$[W,U]$等分を座標アテンション機構と変位予測精錬層(CARL)を組み合わせて達成する方法を示す。 提案手法は,複数の3次元医用画像登録タスクにおいて優れた実用的登録性能を達成し,腹部登録の課題に対して既存の教師なしアプローチよりも優れていた。

Image registration estimates spatial correspondences between a pair of images. These estimates are typically obtained via numerical optimization or regression by a deep network. A desirable property of such estimators is that a correspondence estimate (e.g., the true oracle correspondence) for an image pair is maintained under deformations of the input images. Formally, the estimator should be equivariant to a desired class of image transformations. In this work, we present careful analyses of the desired equivariance properties in the context of multi-step deep registration networks. Based on these analyses we 1) introduce the notions of $[U,U]$ equivariance (network equivariance to the same deformations of the input images) and $[W,U]$ equivariance (where input images can undergo different deformations); we 2) show that in a suitable multi-step registration setup it is sufficient for overall $[W,U]$ equivariance if the first step has $[W,U]$ equivariance and all others have $[U,U]$ equivariance; we 3) show that common displacement-predicting networks only exhibit $[U,U]$ equivariance to translations instead of the more powerful $[W,U]$ equivariance; and we 4) show how to achieve multi-step $[W,U]$ equivariance via a coordinate-attention mechanism combined with displacement-predicting refinement layers (CARL). Overall, our approach obtains excellent practical registration performance on several 3D medical image registration tasks and outperforms existing unsupervised approaches for the challenging problem of abdomen registration.
翻訳日:2024-05-29 10:59:04 公開日:2024-05-28
# 高速双極子サムを用いた3次元再構成

3D Reconstruction with Fast Dipole Sums ( http://arxiv.org/abs/2405.16788v2 )

ライセンス: Link先を確認
Hanyu Chen, Bailey Miller, Ioannis Gkioulekas, (参考訳) マルチビュー画像から高忠実度表面を再構成する手法を提案する。 提案手法では,新たな点ベース表現である双極子和を用いて,ゆらぎや外接点を持つ点雲における任意の点間属性の補間を可能にする。 双極子和を用いることで、暗黙の幾何学と放射場を点雲の点当たりの属性として表現することができ、運動から構造を直接初期化する。 さらに、高速化されたフォワードとリバースモードのダイポール和クエリに対するBarnes-Hut高速和スキームを導出する。 これらのクエリは、レイトレーシングを利用することで、画像のポイントベース表現を効率よく、微分的にレンダリングし、ポイント属性を更新することで、シーンの形状と外観を最適化する。 我々は,ニューラル表現のレイトレーシングやガウス点ベース表現のラスタ化に基づく,最先端の代替手法に対するこの逆レンダリングフレームワークの評価を行った。 また, 直接照明のための影線などのより一般的なレンダリング技術もサポートした。 このサプリメントでは、結果のインタラクティブな可視化を提供する。

We introduce a technique for the reconstruction of high-fidelity surfaces from multi-view images. Our technique uses a new point-based representation, the dipole sum, which generalizes the winding number to allow for interpolation of arbitrary per-point attributes in point clouds with noisy or outlier points. Using dipole sums allows us to represent implicit geometry and radiance fields as per-point attributes of a point cloud, which we initialize directly from structure from motion. We additionally derive Barnes-Hut fast summation schemes for accelerated forward and reverse-mode dipole sum queries. These queries facilitate the use of ray tracing to efficiently and differentiably render images with our point-based representations, and thus update their point attributes to optimize scene geometry and appearance. We evaluate this inverse rendering framework against state-of-the-art alternatives, based on ray tracing of neural representations or rasterization of Gaussian point-based representations. Our technique significantly improves reconstruction quality at equal runtimes, while also supporting more general rendering techniques such as shadow rays for direct illumination. In the supplement, we provide interactive visualizations of our results.
翻訳日:2024-05-29 10:59:04 公開日:2024-05-28
# AutoCV: 信頼性の変動による自動プロセスラベリングによる推論の強化

AutoCV: Empowering Reasoning with Automated Process Labeling via Confidence Variation ( http://arxiv.org/abs/2405.16802v2 )

ライセンス: Link先を確認
Jianqiao Lu, Zhiyang Dou, Hongru Wang, Zeyu Cao, Jianbo Dai, Yingjia Wan, Yinya Huang, Zhijiang Guo, (参考訳) 本研究では,大規模言語モデル (LLMs) の推論能力を高めるため, 推論ステップを自動的に注釈付けして, プロセスラベル作成を行う新しい手法を提案する。 我々のアプローチは、最終回答の正しさに関する検証モデルをトレーニングすることから始まり、自動的にプロセスアノテーションを生成することができる。 この検証モデルは、各推論ステップに信頼スコアを割り当て、その時点から正しい最終回答に到達する確率を示す。 我々は,検証の信頼性スコアの相対的な変化を推論ステップ間で検出し,推論プロセスを自動的に注釈付けする。 これにより、多数の手動アノテーションの必要性や、モデルによるアノテーションアプローチに関連する高い計算コストが軽減される。 最終回答の正しさを訓練した検証モデルにより得られた信頼度変化が、推論ステップにおける誤りを効果的に識別できることを実験的に検証した。 次に, 検証モデルの精度を向上し, LLM が生成した複数の出力から正しい回答を選択することを実証した。 特に、数学とコモンセンス推論の5つのデータセットにまたがる大幅な改善を実現している。 \textsc{AutoCV} のソースコードは \url{https://github.com/rookie-joe/AUTOCV} で公開されている。

In this work, we propose a novel method named \textbf{Auto}mated Process Labeling via \textbf{C}onfidence \textbf{V}ariation (\textbf{\textsc{AutoCV}}) to enhance the reasoning capabilities of large language models (LLMs) by automatically annotating the reasoning steps. Our approach begins by training a verification model on the correctness of final answers, enabling it to generate automatic process annotations. This verification model assigns a confidence score to each reasoning step, indicating the probability of arriving at the correct final answer from that point onward. We detect relative changes in the verification's confidence scores across reasoning steps to automatically annotate the reasoning process. This alleviates the need for numerous manual annotations or the high computational costs associated with model-induced annotation approaches. We experimentally validate that the confidence variations learned by the verification model trained on the final answer correctness can effectively identify errors in the reasoning steps. Subsequently, we demonstrate that the process annotations generated by \textsc{AutoCV} can improve the accuracy of the verification model in selecting the correct answer from multiple outputs generated by LLMs. Notably, we achieve substantial improvements across five datasets in mathematics and commonsense reasoning. The source code of \textsc{AutoCV} is available at \url{https://github.com/rookie-joe/AUTOCV}.
翻訳日:2024-05-29 10:59:04 公開日:2024-05-28
# 大規模言語モデルからのノイズアライメントによるエンティティアライメント

Entity Alignment with Noisy Annotations from Large Language Models ( http://arxiv.org/abs/2405.16806v2 )

ライセンス: Link先を確認
Shengyuan Chen, Qinggang Zhang, Junnan Dong, Wen Hua, Qing Li, Xiao Huang, (参考訳) エンティティアライメント(EA)は、2つの知識グラフ(KG)をマージすることを目的として、等価なエンティティペアを識別する。 既存の手法は人為的なラベルに大きく依存しているが、実際のシナリオでアノテーションにクロスドメインの専門家を組み込むことは違法である。 LLM(Large Language Models)の出現は、セマンティック情報を処理する包括的な能力に触発されて、アノテーションでEAを自動化するための新しい道を示す。 しかし、実際のKGのアノテーション空間が大きいため、EA に対して LLM を直接適用することは自明ではない。 LLMはアライメントを誤解させる可能性のあるノイズの多いラベルを生成することもできる。 そこで我々は,LLMをEAに効果的に活用するための統一フレームワーク LLM4EA を提案する。 具体的には、KG間構造とKG内構造全体に基づいて、最も価値の高いエンティティを優先順位付けすることで、アノテーション空間を大幅に削減する、新しいアクティブラーニングポリシーを設計する。 さらに,詳細な確率論的推論によりラベルの精度を継続的に向上する教師なしラベル精錬器を導入する。 基本EAモデルからのフィードバックに基づいて、ポリシーを反復的に最適化します。 大規模な実験では、4つのベンチマークデータセットに対して、有効性、堅牢性、効率の点でLLM4EAの利点を実証している。 コードはhttps://github.com/chensyCN/llm4ea_official.comから入手できる。

Entity alignment (EA) aims to merge two knowledge graphs (KGs) by identifying equivalent entity pairs. While existing methods heavily rely on human-generated labels, it is prohibitively expensive to incorporate cross-domain experts for annotation in real-world scenarios. The advent of Large Language Models (LLMs) presents new avenues for automating EA with annotations, inspired by their comprehensive capability to process semantic information. However, it is nontrivial to directly apply LLMs for EA since the annotation space in real-world KGs is large. LLMs could also generate noisy labels that may mislead the alignment. To this end, we propose a unified framework, LLM4EA, to effectively leverage LLMs for EA. Specifically, we design a novel active learning policy to significantly reduce the annotation space by prioritizing the most valuable entities based on the entire inter-KG and intra-KG structure. Moreover, we introduce an unsupervised label refiner to continuously enhance label accuracy through in-depth probabilistic reasoning. We iteratively optimize the policy based on the feedback from a base EA model. Extensive experiments demonstrate the advantages of LLM4EA on four benchmark datasets in terms of effectiveness, robustness, and efficiency. Codes are available via https://github.com/chensyCN/llm4ea_official.
翻訳日:2024-05-29 10:59:04 公開日:2024-05-28
# 知覚分析における機械学習と自然言語処理を用いたRedditコメントの性能評価

Performance evaluation of Reddit Comments using Machine Learning and Natural Language Processing methods in Sentiment Analysis ( http://arxiv.org/abs/2405.16810v2 )

ライセンス: Link先を確認
Xiaoxia Zhang, Xiuyuan Qi, Zixin Teng, (参考訳) 学界と業界の両方でますます重要な分野であるセンチメント分析は、機械学習アプリケーション、特にRedditのようなソーシャルメディアプラットフォームにおいて重要な役割を担っている。 しかし、感情分析モデルの有効性は、広範できめ細かな感情データセットの欠如によって妨げられている。 このギャップに対処するために、さまざまな感情を含むGoEmotionsデータセットを活用し、58,000のコメントからなるかなりのコーパスにわたる感情分析手法を評価する。 Googleのチームによる以前の研究とは違い、分析は2つのモデルに限られており、我々の研究は多様なモデルの配列を評価することで範囲を広げている。 本研究では,NIVE Bayes and Support Vector Machines (SVM) などの従来の分類器と,BERT,RoBERTa,GPTなどの最先端トランスフォーマモデルの性能について検討する。 さらに,評価基準は,感情分類の粒度の異なる階層的分類を含む,ニュアンス評価を包含するほど正確ではない。 さらに、総合的な評価枠組みを提供するために、計算効率などの考察が組み込まれている。 以上の結果から,RoBERTaモデルがベースラインモデルより一貫して優れており,微粒な感情分類タスクにおいて精度が優れていることが判明した。 このことは、感情分析能力の進歩におけるRoBERTaモデルの有効性と重要性を浮き彫りにしている。

Sentiment analysis, an increasingly vital field in both academia and industry, plays a pivotal role in machine learning applications, particularly on social media platforms like Reddit. However, the efficacy of sentiment analysis models is hindered by the lack of expansive and fine-grained emotion datasets. To address this gap, our study leverages the GoEmotions dataset, comprising a diverse range of emotions, to evaluate sentiment analysis methods across a substantial corpus of 58,000 comments. Distinguished from prior studies by the Google team, which limited their analysis to only two models, our research expands the scope by evaluating a diverse array of models. We investigate the performance of traditional classifiers such as Naive Bayes and Support Vector Machines (SVM), as well as state-of-the-art transformer-based models including BERT, RoBERTa, and GPT. Furthermore, our evaluation criteria extend beyond accuracy to encompass nuanced assessments, including hierarchical classification based on varying levels of granularity in emotion categorization. Additionally, considerations such as computational efficiency are incorporated to provide a comprehensive evaluation framework. Our findings reveal that the RoBERTa model consistently outperforms the baseline models, demonstrating superior accuracy in fine-grained sentiment classification tasks. This underscores the substantial potential and significance of the RoBERTa model in advancing sentiment analysis capabilities.
翻訳日:2024-05-29 10:59:04 公開日:2024-05-28
# PyGS: ピラミッド型3Dガウススプレイティングによる大規模シーン表現

PyGS: Large-scale Scene Representation with Pyramidal 3D Gaussian Splatting ( http://arxiv.org/abs/2405.16829v2 )

ライセンス: Link先を確認
Zipeng Wang, Dan Xu, (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、大規模シーンのフォトリアリスティック画像の合成に顕著な熟練性を示した。 しかし、細部や長いレンダリング期間の欠如に悩まされることが多い。 3D Gaussian Splattingは最近強力な代替として導入され、高忠実度ビジュアル結果と高速レンダリング性能の両方を実現している。 それでも、3Dガウシアン・スプレイティングのスケーリングは困難に満ちている。 特に、大規模なシーンは、複数のスケールと異なる視点のオブジェクトの統合に支障をきたし、しばしばガウス派は詳細レベルのバランスを取る必要があるため、効果が損なわれる。 さらに、大規模データセットからのCOLMAPによる初期化点の生成は、計算的に要求され、不完全な再構成をしがちである。 これらの課題に対処するために、NeRF初期化を用いたピラミッド型3Dガウススプラッティング(PyGS)を提案する。 私たちのアプローチは、ピラミッド的な方法で配置されたガウス人の階層的な集合体で、このシーンを表現しています。 ピラミッドの上部はいくつかの大きなガウス層で構成されており、その後の各層にはより小さなガウス層が密集している。 高速に訓練された格子型NeRFを様々な周波数でサンプリングすることにより,これらのピラミッド型ガウスを効果的に初期化する。 我々は、これらのピラミッドガウスをクラスタに分類し、コンパクトな重み付けネットワークを用いて、レンダリング中のカメラ視点を考慮した各クラスタのピラミッドレベルの影響を動的に決定する。 提案手法は,複数の大規模データセットにまたがる大幅な性能向上を実現し,現在の最先端手法の400倍以上のレンダリング時間を実現する。

Neural Radiance Fields (NeRFs) have demonstrated remarkable proficiency in synthesizing photorealistic images of large-scale scenes. However, they are often plagued by a loss of fine details and long rendering durations. 3D Gaussian Splatting has recently been introduced as a potent alternative, achieving both high-fidelity visual results and accelerated rendering performance. Nonetheless, scaling 3D Gaussian Splatting is fraught with challenges. Specifically, large-scale scenes grapples with the integration of objects across multiple scales and disparate viewpoints, which often leads to compromised efficacy as the Gaussians need to balance between detail levels. Furthermore, the generation of initialization points via COLMAP from large-scale dataset is both computationally demanding and prone to incomplete reconstructions. To address these challenges, we present Pyramidal 3D Gaussian Splatting (PyGS) with NeRF Initialization. Our approach represent the scene with a hierarchical assembly of Gaussians arranged in a pyramidal fashion. The top level of the pyramid is composed of a few large Gaussians, while each subsequent layer accommodates a denser collection of smaller Gaussians. We effectively initialize these pyramidal Gaussians through sampling a rapidly trained grid-based NeRF at various frequencies. We group these pyramidal Gaussians into clusters and use a compact weighting network to dynamically determine the influence of each pyramid level of each cluster considering camera viewpoint during rendering. Our method achieves a significant performance leap across multiple large-scale datasets and attains a rendering time that is over 400 times faster than current state-of-the-art approaches.
翻訳日:2024-05-29 10:59:04 公開日:2024-05-28
# 低忠実度シミュレーションによる制約付きロボット群移動のための構造化グラフネットワーク

Structured Graph Network for Constrained Robot Crowd Navigation with Low Fidelity Simulation ( http://arxiv.org/abs/2405.16830v2 )

ライセンス: Link先を確認
Shuijing Liu, Kaiwen Hong, Neeloy Chakraborty, Katherine Driggs-Campbell, (参考訳) 低忠実度シミュレータを用いた群集ナビゲーションにおける強化学習(RL)ポリシーの適用可能性について検討した。 動的環境の表現を導入し,人間と障害物の表現を分離する。 人間は検出された状態を通して表現され、障害物は地図とロボットのローカライゼーションに基づいて計算された点雲として表現される。 この表現は、低忠実度シミュレーターで訓練されたRLポリシーを、シム2リアルギャップを減らして現実世界に展開することを可能にする。 さらに,エージェントと障害物間の相互作用をモデル化する時空間グラフを提案する。 このグラフに基づいて、ロボット、人間、人間の相互作用を捉えるために注意機構を用いる。 本手法は実環境とシミュレーション環境の両方におけるナビゲーション性能を大幅に向上させる。 ビデオデモはhttps://sites.google.com/view/constrained-crowdnav/home.comで見ることができる。

We investigate the feasibility of deploying reinforcement learning (RL) policies for constrained crowd navigation using a low-fidelity simulator. We introduce a representation of the dynamic environment, separating human and obstacle representations. Humans are represented through detected states, while obstacles are represented as computed point clouds based on maps and robot localization. This representation enables RL policies trained in a low-fidelity simulator to deploy in real world with a reduced sim2real gap. Additionally, we propose a spatio-temporal graph to model the interactions between agents and obstacles. Based on the graph, we use attention mechanisms to capture the robot-human, human-human, and human-obstacle interactions. Our method significantly improves navigation performance in both simulated and real-world environments. Video demonstrations can be found at https://sites.google.com/view/constrained-crowdnav/home.
翻訳日:2024-05-29 10:59:04 公開日:2024-05-28
# 拡散モデルのための伝達学習

Transfer Learning for Diffusion Models ( http://arxiv.org/abs/2405.16876v2 )

ライセンス: Link先を確認
Yidong Ouyang, Liyan Xie, Hongyuan Zha, Guang Cheng, (参考訳) 特定の生成モデルである拡散モデルは、近年では前例のない性能を達成し、高品質な合成サンプルを一貫して製造している。 彼らの顕著な成功の重要な前提は、かなりの数のトレーニングサンプルが存在することである。 その結果、既存の訓練済みモデルから限られたデータを持つ特定の対象領域に知識を伝達する様々な微調整および正規化手法が提案されている。 本稿では,従来の微調整法や正規化法とは異なる新しいアプローチであるTransfer Guided Diffusion Process (TGDP)を紹介する。 対象領域に対する最適拡散モデルは、ソース領域上の事前学習拡散モデルと、ドメイン分類器からの追加ガイダンスを統合することを証明した。 さらに、TGDPをデータと対応するラベルの共分散をモデル化するための条件付きバージョンに拡張し、モデル性能を高めるために2つの追加正規化用語を付加する。 ガウス混合シミュレーションと心電図(ECG)データセットにおけるTGDPの有効性を検証した。

Diffusion models, a specific type of generative model, have achieved unprecedented performance in recent years and consistently produce high-quality synthetic samples. A critical prerequisite for their notable success lies in the presence of a substantial number of training samples, which can be impractical in real-world applications due to high collection costs or associated risks. Consequently, various finetuning and regularization approaches have been proposed to transfer knowledge from existing pre-trained models to specific target domains with limited data. This paper introduces the Transfer Guided Diffusion Process (TGDP), a novel approach distinct from conventional finetuning and regularization methods. We prove that the optimal diffusion model for the target domain integrates pre-trained diffusion models on the source domain with additional guidance from a domain classifier. We further extend TGDP to a conditional version for modeling the joint distribution of data and its corresponding labels, together with two additional regularization terms to enhance the model performance. We validate the effectiveness of TGDP on Gaussian mixture simulations and on real electrocardiogram (ECG) datasets.
翻訳日:2024-05-29 10:59:04 公開日:2024-05-28
# ガイド画像とメンタルワークロード検出のための脳波信号の分類における繰り返し・畳み込みニューラルネットワーク

Recurrent and Convolutional Neural Networks in Classification of EEG Signal for Guided Imagery and Mental Workload Detection ( http://arxiv.org/abs/2405.16901v2 )

ライセンス: Link先を確認
Filip Postepski, Grzegorz M. Wojcik, Krzysztof Wrobel, Andrzej Kawiak, Katarzyna Zemla, Grzegorz Sedek, (参考訳) ガイド画像技術は、精神病から腫瘍学まで様々な疾患に悩まされている患者の快適さを高めるために世界中のセラピストによって使用されていると報告されており、様々な方法で成功している。 セラピストへの支援は、被験者が深くリラックスする時期を推定することができる。 本稿では,26名の学生を対象に,高密度アレイ脳波増幅器を用いたガイド画像緩和技術と精神作業負荷に関する調査を行った。 この研究は、これらの2つの状態の違いを検知し、深層学習法と、EEGNet、Long Short-Term Memory-based Classifier、1D Convolutional Neural Network、Long Short-Term Memoryのハイブリッドモデルなどの繰り返しニューラルネットワークを用いて、それらを分類できるかどうかを検証することを目的としている。 データ処理パイプラインは、最初のデータクリーニング、前処理、後処理を通じて、データ取得から提供される。 この分類は、2つのデータセットに基づいており、そのうちの1つは26個の認知電極を使用しており、もう1つは256個のチャネルから収集された信号を用いている。 これまでのところ、議論されているアプリケーションではそのような比較は行われていない。 分類結果は、各ケースの精度、リコール、精度、F1スコア、損失などの検証指標によって示される。 認知電極の分類としてすべての電極から信号を収集する必要はないことが判明し、完全な信号に類似した結果が得られ、入力を256チャネルに拡張しても大きな価値が得られないことが判明した。 ディスカッションでは、最適な分類器が提案され、プロジェクトの今後の発展についていくつかの提案がなされた。

The Guided Imagery technique is reported to be used by therapists all over the world in order to increase the comfort of patients suffering from a variety of disorders from mental to oncology ones and proved to be successful in numerous of ways. Possible support for the therapists can be estimation of the time at which subject goes into deep relaxation. This paper presents the results of the investigations of a cohort of 26 students exposed to Guided Imagery relaxation technique and mental task workloads conducted with the use of dense array electroencephalographic amplifier. The research reported herein aimed at verification whether it is possible to detect differences between those two states and to classify them using deep learning methods and recurrent neural networks such as EEGNet, Long Short-Term Memory-based classifier, 1D Convolutional Neural Network and hybrid model of 1D Convolutional Neural Network and Long Short-Term Memory. The data processing pipeline was presented from the data acquisition, through the initial data cleaning, preprocessing and postprocessing. The classification was based on two datasets: one of them using 26 so-called cognitive electrodes and the other one using signal collected from 256 channels. So far there have not been such comparisons in the application being discussed. The classification results are presented by the validation metrics such as: accuracy, recall, precision, F1-score and loss for each case. It turned out that it is not necessary to collect signals from all electrodes as classification of the cognitive ones gives the results similar to those obtained for the full signal and extending input to 256 channels does not add much value. In Disscussion there were proposed an optimal classifier as well as some suggestions concerning the prospective development of the project.
翻訳日:2024-05-29 10:59:04 公開日:2024-05-28
# GTA:オフライン強化学習のためのガイダンスによる生成軌道拡張

GTA: Generative Trajectory Augmentation with Guidance for Offline Reinforcement Learning ( http://arxiv.org/abs/2405.16907v2 )

ライセンス: Link先を確認
Jaewoo Lee, Sujin Yun, Taeyoung Yun, Jinkyoo Park, (参考訳) オフライン強化学習(Offline Reinforcement Learning (Offline RL))は、オンラインインタラクションなしで静的データセットから効果的な意思決定ポリシーを学ぶという課題を提示している。 ノイズ注入やデータ合成などのデータ拡張技術は、学習状態領域を滑らかにすることでQ関数近似を改善することを目的としている。 しかし、これらの手法は、オフラインデータセットの質を直接的に改善するに足りず、亜最適結果をもたらすことが多い。 そこで本稿では,高次かつ動的に検証可能なトラジェクトリを増大させることにより,オフラインデータの強化を目的とした新しい生成データ拡張手法である,生成トラジェクトリ拡張(Generative Trajectory Augmentation)を提案する。 GTAはデータ拡張フレームワークに拡散モデルを適用します。 GTAは元のトラジェクトリを部分的にノイズし、増幅された戻り値の条件付けにより、分類子なしのガイダンスでノイズを発生させる。 以上の結果から,GTAは汎用データ拡張戦略として,高密度かつ疎度な報酬設定において,広く使われているオフラインRLアルゴリズムの性能を向上させることが示唆された。 さらに、GTAによって強化されたデータの品質分析を行い、GTAがデータの品質を改善することを示す。 私たちのコードはhttps://github.com/Jaewoopudding/GTAで利用可能です。

Offline Reinforcement Learning (Offline RL) presents challenges of learning effective decision-making policies from static datasets without any online interactions. Data augmentation techniques, such as noise injection and data synthesizing, aim to improve Q-function approximation by smoothing the learned state-action region. However, these methods often fall short of directly improving the quality of offline datasets, leading to suboptimal results. In response, we introduce \textbf{GTA}, Generative Trajectory Augmentation, a novel generative data augmentation approach designed to enrich offline data by augmenting trajectories to be both high-rewarding and dynamically plausible. GTA applies a diffusion model within the data augmentation framework. GTA partially noises original trajectories and then denoises them with classifier-free guidance via conditioning on amplified return value. Our results show that GTA, as a general data augmentation strategy, enhances the performance of widely used offline RL algorithms in both dense and sparse reward settings. Furthermore, we conduct a quality analysis of data augmented by GTA and demonstrate that GTA improves the quality of the data. Our code is available at https://github.com/Jaewoopudding/GTA
翻訳日:2024-05-29 10:59:04 公開日:2024-05-28
# VoCoT:大規模マルチモードモデルにおける視覚的接地型マルチステップ推論

VoCoT: Unleashing Visually Grounded Multi-Step Reasoning in Large Multi-Modal Models ( http://arxiv.org/abs/2405.16919v2 )

ライセンス: Link先を確認
Zejun Li, Ruipu Luo, Jiwen Zhang, Minghui Qiu, Zhongyu Wei, (参考訳) 大規模マルチモーダルモデル(LMM)は多種多様なタスクにまたがる印象的な能力を示してきたが、複雑なタスクを扱う上での有効性は、一般的なシングルステップ推論パラダイムによって制限されてきた。 そこで本稿では,LMMを用いた推論に適した,多段階の視覚的基盤を持つオブジェクト中心の連鎖推論フレームワークであるVoCoTを提案する。 VoCoT の特徴は,(1) オブジェクト間の共有オブジェクトレベルの情報を取り巻くオブジェクト中心の推論経路,(2) 多モードのインターリーブとアライメントによるオブジェクト概念の視覚的接地表現により,LMM の長期的生成におけるモダリティギャップを効果的に橋渡しする,という2つの特徴である。 さらに,VoCoTを用いた推論に適応してLMMを容易にするための命令データセットを構築した。 オープンソースのLMMアーキテクチャにVoCoTを導入することで、VolCanoを紹介します。 7Bパラメータと限られた入力解像度しか持たないVolCanoは、複雑な推論を必要とするタスクにおいて、GPT-4Vを含むSOTAモデルよりも優れた性能を示す。 私たちのコード、データ、モデルはhttps://github.com/RupertLuo/VoCoT.comで公開されます。

While large multi-modal models (LMMs) have exhibited impressive capabilities across diverse tasks, their effectiveness in handling complex tasks has been limited by the prevailing single-step reasoning paradigm. To this end, this paper proposes VoCoT, a multi-step Visually grounded object-centric Chain-of-Thought reasoning framework tailored for inference with LMMs. VoCoT is characterized by two key features: (1) object-centric reasoning paths that revolve around cross-modal shared object-level information, and (2) visually grounded representation of object concepts in a multi-modal interleaved and aligned manner, which effectively bridges the modality gap within LMMs during long-term generation. Additionally, we construct an instruction dataset to facilitate LMMs in adapting to reasoning with VoCoT. By introducing VoCoT into the prevalent open-source LMM architecture, we introduce VolCano. With only 7B parameters and limited input resolution, VolCano demonstrates excellent performance across various scenarios, surpassing SOTA models, including GPT-4V, in tasks requiring complex reasoning. Our code, data and model will be available at https://github.com/RupertLuo/VoCoT.
翻訳日:2024-05-29 10:59:04 公開日:2024-05-28
# SA-GS:幾何学的制約を伴う大規模シーン再構成のための意味認識型ガウス切削法

SA-GS: Semantic-Aware Gaussian Splatting for Large Scene Reconstruction with Geometry Constrain ( http://arxiv.org/abs/2405.16923v2 )

ライセンス: Link先を確認
Butian Xiong, Xiaoyu Ye, Tze Ho Elden Tse, Kai Han, Shuguang Cui, Zhen Li, (参考訳) ガウススプラッターの出現に伴い、近年の取り組みは大規模な景観幾何学的復元に焦点が当てられている。 しかし、これらの取り組みのほとんどはメモリ削減や空間空間分割に集中しており、意味空間の情報を無視している。 本稿では, セマンティック・アウェアな3Dガウス・スプラットを用いた精密な3次元形状再構成のためのSA-GSという新しい手法を提案する。 具体的には、SAMやDINOのような大きな視覚モデルに格納された事前情報を利用してセマンティックマスクを生成する。 次に、幾何複雑性測定関数を導入し、ソフト正規化として機能し、特定の意味領域における各ガウスプレートの形状を導出する。 さらに,異なる意味領域におけるガウススプラッツの期待数を推定し,これらの領域におけるガウススプラッツの下位境界を効果的に提供する手法を提案する。 その後,新しい確率密度に基づく抽出法を用いて点雲を抽出し,ガウススプラッツを下流タスクに不可欠な点雲に変換する。 提案手法は,高精細なセマンティックな問合せの可能性を秘めつつ,高精細な画像に基づく再構築結果の維持にも有効である。 我々は,地上の真実として高精度な点雲と新たなデータセットを用いた,公開可能な大規模シーン再構築データセットに関する広範な実験を行った。 提案手法は,現在最先端のガウススプラッツ法よりも幾何的測定値において有意差で優れていることを示す。 コードと追加の結果は近いうちにプロジェクトのページで公開されます。

With the emergence of Gaussian Splats, recent efforts have focused on large-scale scene geometric reconstruction. However, most of these efforts either concentrate on memory reduction or spatial space division, neglecting information in the semantic space. In this paper, we propose a novel method, named SA-GS, for fine-grained 3D geometry reconstruction using semantic-aware 3D Gaussian Splats. Specifically, we leverage prior information stored in large vision models such as SAM and DINO to generate semantic masks. We then introduce a geometric complexity measurement function to serve as soft regularization, guiding the shape of each Gaussian Splat within specific semantic areas. Additionally, we present a method that estimates the expected number of Gaussian Splats in different semantic areas, effectively providing a lower bound for Gaussian Splats in these areas. Subsequently, we extract the point cloud using a novel probability density-based extraction method, transforming Gaussian Splats into a point cloud crucial for downstream tasks. Our method also offers the potential for detailed semantic inquiries while maintaining high image-based reconstruction results. We provide extensive experiments on publicly available large-scale scene reconstruction datasets with highly accurate point clouds as ground truth and our novel dataset. Our results demonstrate the superiority of our method over current state-of-the-art Gaussian Splats reconstruction methods by a significant margin in terms of geometric-based measurement metrics. Code and additional results will soon be available on our project page.
翻訳日:2024-05-29 10:46:21 公開日:2024-05-28
# UIT-DarkCow team at ImageCLEFmedical Caption 2024: Diagnostic Captioning for Radiology Images efficiency with Transformer Models (特集:ユビキタス・バイオサイバネティックスとバイオサイバネティックス)

UIT-DarkCow team at ImageCLEFmedical Caption 2024: Diagnostic Captioning for Radiology Images Efficiency with Transformer Models ( http://arxiv.org/abs/2405.17002v2 )

ライセンス: Link先を確認
Quan Van Nguyen, Huy Quang Pham, Dan Quang Tran, Thang Kien-Bao Nguyen, Nhat-Hao Nguyen-Dang, Bao-Thien Nguyen-Tat, (参考訳) 目的:本研究は,医療従事者が臨床ミスを減らし,生産性を向上させるために,診断キャプション(診断キャプション)と呼ばれる放射線画像からの自動テキスト生成を開発することに焦点を当てる。 本研究の目的は, 医療現場における臨床実習と深層学習研究に大きな影響を与える, 報告の質と効率を向上させるツールを提供することである。 方法:ImageCLEFmedical2024キャプション評価キャンペーンに参加して,トランスフォーマーモデルを用いたキャプション予測タスクについて検討した。 我々はTransformer encoder-decoderとQuery Transformerアーキテクチャを組み込んだ手法を開発した。 これらのモデルは放射線画像から診断キャプションを生成するために訓練され評価された。 結果:VisionDiagnostor-BioBARTモデルによるBERTScoreは0.6267。 このパフォーマンスは、私たちのチームであるDarkCowに貢献し、リーダーボードで3位を獲得しました。 結論: 診断キャプションモデルでは, 高品質なレポートを効率よく作成することで, 医療従事者を支援することに大きな期待が持たれている。 このアプローチは、医療画像部門のデータ処理とパフォーマンスの最適化を向上し、最終的には医療提供の恩恵を受ける。

Purpose: This study focuses on the development of automated text generation from radiology images, termed diagnostic captioning, to assist medical professionals in reducing clinical errors and improving productivity. The aim is to provide tools that enhance report quality and efficiency, which can significantly impact both clinical practice and deep learning research in the biomedical field. Methods: In our participation in the ImageCLEFmedical2024 Caption evaluation campaign, we explored caption prediction tasks using advanced Transformer-based models. We developed methods incorporating Transformer encoder-decoder and Query Transformer architectures. These models were trained and evaluated to generate diagnostic captions from radiology images. Results: Experimental evaluations demonstrated the effectiveness of our models, with the VisionDiagnostor-BioBART model achieving the highest BERTScore of 0.6267. This performance contributed to our team, DarkCow, achieving third place on the leaderboard. Conclusion: Our diagnostic captioning models show great promise in aiding medical professionals by generating high-quality reports efficiently. This approach can facilitate better data processing and performance optimization in medical imaging departments, ultimately benefiting healthcare delivery.
翻訳日:2024-05-29 10:46:21 公開日:2024-05-28
# 立場:意思決定のパラダイムシフトとしてのファンデーションエージェント

Position: Foundation Agents as the Paradigm Shift for Decision Making ( http://arxiv.org/abs/2405.17009v2 )

ライセンス: Link先を確認
Xiaoqian Liu, Xingzhou Lou, Jianbin Jiao, Junge Zhang, (参考訳) 決定的要求は、知覚、記憶、推論の間の相互作用を複雑にし、最適なポリシーを識別する。 従来の意思決定手法は、サンプル効率の低下と一般化の低さに関連する課題に直面している。 対照的に、言語と視覚の基盤モデルは、様々な新しいタスクに迅速に適応することを示した。 そこで我々は,エージェントの学習パラダイムの変革的変化として,基礎エージェントの構築を提唱する。 この提案は、基礎的特徴と大きな言語モデル(LLM)の成功に動機づけられた課題を持つ基礎的エージェントの定式化に支えられている。 さらに,大規模な対話型データ収集や生成から,自己指導型事前学習・適応,LLMとの知識・価値アライメントに至るまで,基礎的エージェントのロードマップを規定する。 最後に、現実のユースケースで支援される基礎エージェントの定式化と定式化の傾向から導かれる重要な研究課題を指摘し、より包括的で影響力のある未来に向けての分野を推進すべく、技術面と理論面の両方に対処する。

Decision making demands intricate interplay between perception, memory, and reasoning to discern optimal policies. Conventional approaches to decision making face challenges related to low sample efficiency and poor generalization. In contrast, foundation models in language and vision have showcased rapid adaptation to diverse new tasks. Therefore, we advocate for the construction of foundation agents as a transformative shift in the learning paradigm of agents. This proposal is underpinned by the formulation of foundation agents with their fundamental characteristics and challenges motivated by the success of large language models (LLMs). Moreover, we specify the roadmap of foundation agents from large interactive data collection or generation, to self-supervised pretraining and adaptation, and knowledge and value alignment with LLMs. Lastly, we pinpoint critical research questions derived from the formulation and delineate trends for foundation agents supported by real-world use cases, addressing both technical and theoretical aspects to propel the field towards a more comprehensive and impactful future.
翻訳日:2024-05-29 10:46:21 公開日:2024-05-28
# MotionLLM:大規模言語モデルを用いたマルチモーダル運動言語学習

MotionLLM: Multimodal Motion-Language Learning with Large Language Models ( http://arxiv.org/abs/2405.17013v2 )

ライセンス: Link先を確認
Qi Wu, Yubo Zhao, Yifan Wang, Yu-Wing Tai, Chi-Keung Tang, (参考訳) 近年のMM-LLM(Multimodal Large Language Models)の進歩は,様々なモダリティに適用した場合の一般化やロバスト性において有望な可能性を示している。 従来の研究は言語モデリングを含む様々な手法で3次元のモーション生成を達成しているが、多くは慎重に設計されており、単一のモーション生成に限定されている。 MM-LLMsの成功にインスパイアされたMotionLLMは、単人・多人動作生成と、微調整事前学習によるモーションキャプションを実現するための、シンプルで汎用的なフレームワークである。 具体的には、動作を離散LLM理解可能なトークンにエンコードし、量子化し、その結果、動作トークンとテキストトークンの両方からなる統一語彙が生成される。 アダプタを用いてトレーニングしたLSMのパラメータは1-3%に過ぎず、我々の単一人間のモーション生成は、これらの拡散モデルや他の訓練されたスクラッチトランスフォーマーベースモデルに匹敵する結果が得られる。 さらに,本手法はスケーラブルで柔軟性があり,単動作の自動回帰生成による多動運動生成を容易に拡張できることが示唆された。 プロジェクトページ:https://knoxzhao.github.io/MotionLLM

Recent advancements in Multimodal Large Language Models (MM-LLMs) have demonstrated promising potential in terms of generalization and robustness when applied to different modalities. While previous works have already achieved 3D human motion generation using various approaches including language modeling, they mostly % are mostly carefully designed use specialized architecture and are restricted to single-human motion generation. Inspired by the success of MM-LLMs, we propose MotionLLM, a simple and general framework that can achieve single-human, multi-human motion generation, and motion captioning by fine-tuning pre-trained LLMs. Specifically, we encode and quantize motions into discrete LLM-understandable tokens, which results in a unified vocabulary consisting of both motion and text tokens. With only 1--3% parameters of the LLMs trained by using adapters, our single-human motion generation achieves comparable results to those diffusion models and other trained-from-scratch transformer-based models. Additionally, we show that our approach is scalable and flexible, allowing easy extension to multi-human motion generation through autoregressive generation of single-human motions. Project page: https://knoxzhao.github.io/MotionLLM
翻訳日:2024-05-29 10:46:21 公開日:2024-05-28
# 平均場制御ゲームのための大規模強化Qラーニングアルゴリズムの解析

Analysis of Multiscale Reinforcement Q-Learning Algorithms for Mean Field Control Games ( http://arxiv.org/abs/2405.17017v2 )

ライセンス: Link先を確認
Andrea Angiuli, Jean-Pierre Fouque, Mathieu Laurière, Mengrui Zhang, (参考訳) 平均場制御ゲーム (MFCG) は, [Angiuli et al , 2022a] に導入され, グループ数と大きさの無限の極限において, 多数のエージェント間の競争ゲームを表す。 本稿では,3次元強化Q-Learning(RL)アルゴリズムのモデルフリーアプローチによるMFCGの収束を代表エージェントの観点から証明する。 我々の分析では、有限状態と作用空間に対して、無限の地平線上の各離散時間ステップで更新されるQテーブルを用いている。 Angiuli et al , 2023] では,MFG と MFC の2時間スケールアルゴリズムの収束が,MFC の場合において複数の集団分布に従う必要性を別々に強調した。 ここでは,この機能をMFCGに組み込むとともに,適切な比で3回の更新率を0に下げる。 本手法は,[Borkar, 1997]における2時間スケール解析の3つの時間スケールを一般化した手法である。 本稿では,アルゴリズムの性能を解析し,収束の証明における様々な仮説を満たす簡単な例を示す。

Mean Field Control Games (MFCG), introduced in [Angiuli et al., 2022a], represent competitive games between a large number of large collaborative groups of agents in the infinite limit of number and size of groups. In this paper, we prove the convergence of a three-timescale Reinforcement Q-Learning (RL) algorithm to solve MFCG in a model-free approach from the point of view of representative agents. Our analysis uses a Q-table for finite state and action spaces updated at each discrete time-step over an infinite horizon. In [Angiuli et al., 2023], we proved convergence of two-timescale algorithms for MFG and MFC separately highlighting the need to follow multiple population distributions in the MFC case. Here, we integrate this feature for MFCG as well as three rates of update decreasing to zero in the proper ratios. Our technique of proof uses a generalization to three timescales of the two-timescale analysis in [Borkar, 1997]. We give a simple example satisfying the various hypothesis made in the proof of convergence and illustrating the performance of the algorithm.
翻訳日:2024-05-29 10:46:21 公開日:2024-05-28
# F-3DGS:3次元ガウス平滑化のための因子座標と表現

F-3DGS: Factorized Coordinates and Representations for 3D Gaussian Splatting ( http://arxiv.org/abs/2405.17083v2 )

ライセンス: Link先を確認
Xiangyu Sun, Joo Chan Lee, Daniel Rho, Jong Hwan Ko, Usman Ali, Eunbyung Park, (参考訳) 神経放射野(NeRF)は3次元シーンを表現し,新規な視点を合成する上で大きな進歩を遂げている。 その進歩にもかかわらず、NeRFの計算コストが高いため、リソース制約のある環境やリアルタイムアプリケーションへの展開が困難になっている。 NeRFライクなニューラルレンダリングの代替として、3D Gaussian Splatting (3DGS)は高速なレンダリング速度を提供し、優れた画質を維持している。 しかし、無数のガウシアンを用いて物や場面を表現するため、高品質な表現を実現するにはかなりの記憶を必要とする。 ストレージのオーバーヘッドを軽減するため,F3DGS(Factized 3D Gaussian Splatting)を提案する。 古典行列およびテンソル因子化法に着想を得た本手法は, ガウスの高密度クラスタを効率な因数分解によって表現し, 近似する。 我々は,各軸とそれらの組み合わせについて,限られた量の情報で近似することで,高密度な3次元ガウスを効率的に表現することを目指している。 この方法では、比較的少数の要素をレンダリングするのに必要な、色、スケール、回転といった重要な属性とともに、かなり多くのガウスを符号化することができる。 F-3DGSはレンダリング画像に匹敵する品質を維持しつつ,ストレージコストを大幅に削減できることを示した。

The neural radiance field (NeRF) has made significant strides in representing 3D scenes and synthesizing novel views. Despite its advancements, the high computational costs of NeRF have posed challenges for its deployment in resource-constrained environments and real-time applications. As an alternative to NeRF-like neural rendering methods, 3D Gaussian Splatting (3DGS) offers rapid rendering speeds while maintaining excellent image quality. However, as it represents objects and scenes using a myriad of Gaussians, it requires substantial storage to achieve high-quality representation. To mitigate the storage overhead, we propose Factorized 3D Gaussian Splatting (F-3DGS), a novel approach that drastically reduces storage requirements while preserving image quality. Inspired by classical matrix and tensor factorization techniques, our method represents and approximates dense clusters of Gaussians with significantly fewer Gaussians through efficient factorization. We aim to efficiently represent dense 3D Gaussians by approximating them with a limited amount of information for each axis and their combinations. This method allows us to encode a substantially large number of Gaussians along with their essential attributes -- such as color, scale, and rotation -- necessary for rendering using a relatively small number of elements. Extensive experimental results demonstrate that F-3DGS achieves a significant reduction in storage costs while maintaining comparable quality in rendered images.
翻訳日:2024-05-29 10:46:21 公開日:2024-05-28
# LLM-Optic:Universal Visual Groundingのための大規模言語モデルの能力公開

LLM-Optic: Unveiling the Capabilities of Large Language Models for Universal Visual Grounding ( http://arxiv.org/abs/2405.17104v2 )

ライセンス: Link先を確認
Haoyu Zhao, Wenhang Ge, Ying-cong Chen, (参考訳) ビジュアルグラウンドティングは、ユーザが提供するテキストクエリと、画像内のクエリ固有の領域を結びつける重要なツールである。 視覚的接地モデルの進歩にもかかわらず、複雑なクエリを理解する能力は依然として限られている。 この制限を克服するために,LLM-Opticは,Large Language Models (LLMs) を光学レンズとして利用し,複雑なテキスト構造,複数オブジェクト,オブジェクト空間関係を含む複雑なテキストクエリの理解において,既存の視覚的グラウンドディングモデルを強化する革新的な手法である。 LLM-Optic は、まず LLM をテキストグラウンドとして使用し、複雑なテキストクエリを解釈し、ユーザーが発見しようとするオブジェクトを正確に識別する。 次に、事前学習されたビジュアルグラウンドモデルを使用して、テキストグラウンドによる洗練されたクエリが与えられた候補バウンディングボックスを生成する。 その後、LLM-Opticは、候補境界ボックスに数値マークを付加し、テキストと特定の画像領域間の接続を確立することにより、2つの異なるモダリティをリンクする。 最後に、Visual GrounderとしてLarge Multimodal Model (LMM)を使用して、元のテキストクエリに最も適したマークされた候補オブジェクトを選択する。 LLM-Opticにより、任意の人間の言語入力によって指定された任意のオブジェクトを検出できる、普遍的な視覚的グラウンド化を実現した。 重要なこととして,本手法は,追加のトレーニングや微調整を必要とせずに,この強化を実現する。 様々な挑戦的なベンチマークによる大規模な実験により、LLM-Opticは最先端のゼロショット視覚グラウンド機能を実現することが示された。 プロジェクトページ:https://haoyu-zhao.github.io/LLM-Optic.github.io/

Visual grounding is an essential tool that links user-provided text queries with query-specific regions within an image. Despite advancements in visual grounding models, their ability to comprehend complex queries remains limited. To overcome this limitation, we introduce LLM-Optic, an innovative method that utilizes Large Language Models (LLMs) as an optical lens to enhance existing visual grounding models in comprehending complex text queries involving intricate text structures, multiple objects, or object spatial relationships, situations that current models struggle with. LLM-Optic first employs an LLM as a Text Grounder to interpret complex text queries and accurately identify objects the user intends to locate. Then a pre-trained visual grounding model is used to generate candidate bounding boxes given the refined query by the Text Grounder. After that, LLM-Optic annotates the candidate bounding boxes with numerical marks to establish a connection between text and specific image regions, thereby linking two distinct modalities. Finally, it employs a Large Multimodal Model (LMM) as a Visual Grounder to select the marked candidate objects that best correspond to the original text query. Through LLM-Optic, we have achieved universal visual grounding, which allows for the detection of arbitrary objects specified by arbitrary human language input. Importantly, our method achieves this enhancement without requiring additional training or fine-tuning. Extensive experiments across various challenging benchmarks demonstrate that LLM-Optic achieves state-of-the-art zero-shot visual grounding capabilities. Project Page: https://haoyu-zhao.github.io/LLM-Optic.github.io/.
翻訳日:2024-05-29 10:46:21 公開日:2024-05-28
# Jump-Teaching: ノイズラベルによる超効率的かつロバストな学習

Jump-teaching: Ultra Efficient and Robust Learning with Noisy Label ( http://arxiv.org/abs/2405.17137v2 )

ライセンス: Link先を確認
Kangye Ji, Fei Cheng, Zeqing Wang, Bohu Huang, (参考訳) サンプル選択はラベルノイズに対処する最も簡単な手法であり、トレーニング中に誤ラベル付きサンプルを識別し、モデルの堅牢性の低下を避けることを目的としている。 ワークフローでは、$\textit{selecting potentially clean data}$と$\textit{model update}$が反復的である。 しかし、それらの相互作用と本質的な特徴は、ノイズラベルによる学習の堅牢性と効率を損なう。 1) モデルが選択バイアスでクリーンなデータを選択し, モデル更新におけるエラーの蓄積につながる。 2)ほとんどの選択戦略はパートナーネットワークや補助情報を利用してラベルの破損を軽減し,計算資源の増大とスループットの低下を図っている。 そこで我々は,ジャンプ方式の更新を施した1つのネットワークのみを用いて,対話を分離し,より正確な選択のために,損失からより多くの意味情報をマイニングする。 具体的には、各モデル更新のためのクリーンなデータの選択は、前回のイテレーションを除いて、前のモデルの1つに基づいています。 モデル更新の戦略は、フォームでジャンプ動作を示す。 さらに,ネットワークとラベルの出力をそれぞれ同じ意味的特徴空間にマッピングする。 この空間では、より効果的にクリーンサンプルを識別するために、詳細で単純な損失分布が生成される。 提案手法は,ピークメモリフットプリントを最大2.53\times$スピードアップ,0.46\times$ピークメモリフットプリントを実現し,各種ノイズ設定による最先端作業よりも優れたロバスト性を実現する。

Sample selection is the most straightforward technique to combat label noise, aiming to distinguish mislabeled samples during training and avoid the degradation of the robustness of the model. In the workflow, $\textit{selecting possibly clean data}$ and $\textit{model update}$ are iterative. However, their interplay and intrinsic characteristics hinder the robustness and efficiency of learning with noisy labels: 1) The model chooses clean data with selection bias, leading to the accumulated error in the model update. 2) Most selection strategies leverage partner networks or supplementary information to mitigate label corruption, albeit with increased computation resources and lower throughput speed. Therefore, we employ only one network with the jump manner update to decouple the interplay and mine more semantic information from the loss for a more precise selection. Specifically, the selection of clean data for each model update is based on one of the prior models, excluding the last iteration. The strategy of model update exhibits a jump behavior in the form. Moreover, we map the outputs of the network and labels into the same semantic feature space, respectively. In this space, a detailed and simple loss distribution is generated to distinguish clean samples more effectively. Our proposed approach achieves almost up to $2.53\times$ speedup, $0.46\times$ peak memory footprint, and superior robustness over state-of-the-art works with various noise settings.
翻訳日:2024-05-29 10:46:21 公開日:2024-05-28
# 絡み合いによるマルチスタビリティ

Disentanglement-induced multistability ( http://arxiv.org/abs/2405.17145v2 )

ライセンス: Link先を確認
Eyal Buks, (参考訳) 可算性(multistability)は、単安定マスター方程式に基づく理論モデルから導出することはできない。 一方、マルチスタビリティは様々な量子系で実験的に観察されている。 絡み合いを引き起こす非線形項を持つマスター方程式が最近提案されている。 このマスター方程式によって支配される力学は、結合スピンからなる量子系に対して探索される。 加算された非線形項が乗算可能性をもたらすことが判明した。 外部に印加された磁場に対するスピンの応答を評価し, 相転移と動的不安定性の両方を見出した。 これらの発見は、量子系において自然発散が起こるという仮説を間接的に支持するものである。

Multistability cannot be derived from any theoretical model that is based on a monostable master equation. On the other hand, multistability is experimentally-observed in a variety of quantum systems. A master equation having a nonlinear term that gives rise to disentanglement has been recently proposed . The dynamics governed by this master equation is explored for a quantum system made of coupled spins. It is found that the added nonlinear term can give rise to multistability. The spins' response to an externally applied magnetic field is evaluated, and both a phase transition and a dynamical instability are found. These findings, which originate from disentanglement-induced multistability, indirectly support the hypothesis that spontaneous disentanglement occurs in quantum systems.
翻訳日:2024-05-29 10:46:21 公開日:2024-05-28
# WeiPer:クラス投影の重み摂動を用いたOOD検出

WeiPer: OOD Detection using Weight Perturbations of Class Projections ( http://arxiv.org/abs/2405.17164v2 )

ライセンス: Link先を確認
Maximilian Granz, Manuel Heurich, Tim Landgraf, (参考訳) 画像データにおけるオフ・オブ・ディストリビューション(OOD)検出の最近の進歩は、事前訓練されたニューラルネットワーク分類器が、OODデータからイン・ディストリビューション(ID)を適切に分離できることを示し、モデル自体のクラス識別能力を活用している。 直接ロジット情報を使用する方法や、モデルの垂直層アクティベーションを処理する方法が提案されている。 WeiPer"では、最後の完全に接続された層にクラスプロジェクションの摂動を導入し、入力のよりリッチな表現を生成します。 この簡単な手法により,様々な手法のOOD検出性能が向上し,拡張されたWeiPer空間の特性を利用した距離ベース手法を提案する。 我々は,OpenOODフレームワークの複数のベンチマーク,特にOODサンプルがトレーニングセット分布に近い位置にある困難な環境で,最先端のOOD検出結果を実現する。 理論的モチベーションと経験的観察で得られた知見をサポートし,WeiPerがなぜ機能するのかについての知見を提供するために,広範囲にわたる検証を実施している。

Recent advances in out-of-distribution (OOD) detection on image data show that pre-trained neural network classifiers can separate in-distribution (ID) from OOD data well, leveraging the class-discriminative ability of the model itself. Methods have been proposed that either use logit information directly or that process the model's penultimate layer activations. With "WeiPer", we introduce perturbations of the class projections in the final fully connected layer which creates a richer representation of the input. We show that this simple trick can improve the OOD detection performance of a variety of methods and additionally propose a distance-based method that leverages the properties of the augmented WeiPer space. We achieve state-of-the-art OOD detection results across multiple benchmarks of the OpenOOD framework, especially pronounced in difficult settings in which OOD samples are positioned close to the training set distribution. We support our findings with theoretical motivations and empirical observations, and run extensive ablations to provide insights into why WeiPer works.
翻訳日:2024-05-29 10:46:21 公開日:2024-05-28
# オンライン深層学習の機会と課題についての一考察

A Retrospective of the Tutorial on Opportunities and Challenges of Online Deep Learning ( http://arxiv.org/abs/2405.17222v2 )

ライセンス: Link先を確認
Cedric Kulbach, Lucas Cazzonelli, Hoang-Anh Ngo, Minh-Huong Le-Nguyen, Albert Bifet, (参考訳) 機械学習のアルゴリズムは、今日の世界では欠かせないものになっている。 彼らは、手元にあるデータに基づいて意思決定方法をサポートし、加速します。 このアクセラレーションは、ある時点で有効であったデータ構造が、将来的にはもはや有効ではないことを意味する。 これらの変化したデータ構造では、機械学習(ML)システムを新しいデータに漸進的に適応させる必要がある。 これはオンライン学習や継続的ML技術を用いて行われる。 ディープラーニング技術は、事前に定義されたデータセット上では例外的なパフォーマンスを示しているが、オンライン、ストリーミング、継続的学習には広く適用されていない。 ECML PKDD 2023で開かれたチュートリアル"Opportunities and Challenges of Online Deep Learning"の振り返りでは、機会の概要に加えて、フレームワークRiverとDeep-Riverを使用したオンライン学習環境におけるニューラルネットワークの適用に関する潜在的な落とし穴も紹介する。

Machine learning algorithms have become indispensable in today's world. They support and accelerate the way we make decisions based on the data at hand. This acceleration means that data structures that were valid at one moment could no longer be valid in the future. With these changing data structures, it is necessary to adapt machine learning (ML) systems incrementally to the new data. This is done with the use of online learning or continuous ML technologies. While deep learning technologies have shown exceptional performance on predefined datasets, they have not been widely applied to online, streaming, and continuous learning. In this retrospective of our tutorial titled Opportunities and Challenges of Online Deep Learning held at ECML PKDD 2023, we provide a brief overview of the opportunities but also the potential pitfalls for the application of neural networks in online learning environments using the frameworks River and Deep-River.
翻訳日:2024-05-29 10:46:21 公開日:2024-05-28
# 非教師対象発見のための繰り返し複素重み付きオートエンコーダ

Recurrent Complex-Weighted Autoencoders for Unsupervised Object Discovery ( http://arxiv.org/abs/2405.17283v2 )

ライセンス: Link先を確認
Anand Gopalakrishnan, Aleksandar Stanić, Jürgen Schmidhuber, Michael Curtis Mozer, (参考訳) 現在の最先端の同期モデルでは、複雑な値のアクティベーションを持つオブジェクトバインディングを符号化し、フィードフォワードアーキテクチャにおいて実際の値の重みを持つ計算を行う。 複雑な重み付き再帰的アーキテクチャの計算上の優位性について論じる。 本稿では,各反復において,隠蔽層ボトルネックが特定の位相関係における特徴の統計的に規則的な構成を符号化する,完全畳み込み型オートエンコーダであるSynCxを提案する。 結合は、単に複雑な重み付けとアクティベーションの間の行列ベクトル積演算によって達成され、現在の同期モデルに組み込まれた追加のメカニズムは不要である。 SynCxは、教師なしのオブジェクト発見において、現在のモデルよりも優れているか、強い競争力を持っている。 SynCxはまた、同様の色のオブジェクトを追加の監督なしに分離できないなど、現在のモデルの特定の系統的なグループ化エラーを回避する。

Current state-of-the-art synchrony-based models encode object bindings with complex-valued activations and compute with real-valued weights in feedforward architectures. We argue for the computational advantages of a recurrent architecture with complex-valued weights. We propose a fully convolutional autoencoder, SynCx, that performs iterative constraint satisfaction: at each iteration, a hidden layer bottleneck encodes statistically regular configurations of features in particular phase relationships; over iterations, local constraints propagate and the model converges to a globally consistent configuration of phase assignments. Binding is achieved simply by the matrix-vector product operation between complex-valued weights and activations, without the need for additional mechanisms that have been incorporated into current synchrony-based models. SynCx outperforms or is strongly competitive with current models for unsupervised object discovery. SynCx also avoids certain systematic grouping errors of current models, such as the inability to separate similarly colored objects without additional supervision.
翻訳日:2024-05-29 10:46:21 公開日:2024-05-28
# 拡散モデルによる制御可能なより長い画像アニメーション

Controllable Longer Image Animation with Diffusion Models ( http://arxiv.org/abs/2405.17306v2 )

ライセンス: Link先を確認
Qiang Wang, Minghua Liu, Junjun Hu, Fan Jiang, Mu Xu, (参考訳) 静的画像からリアルなアニメーションビデオを生成することは、コンピュータビジョンにおける重要な研究領域である。 物理シミュレーションと運動予測に基づく手法は顕著な進歩を遂げているが、それらはしばしば特定の物体のテクスチャや運動軌道に限られており、非常に複雑な環境や物理力学を示せなかった。 本稿では,映像拡散モデルを用いた動き先行画像を用いたオープンドメイン制御可能な画像アニメーション手法を提案する。 本手法は,動画から運動場情報を抽出し,移動軌跡や強みを学習することにより,移動領域の運動方向と速度を正確に制御する。 現在の事前訓練されたビデオ生成モデルは、通常30フレーム未満の非常に短いビデオを生成することに限定される。 対照的に、画像アニメーションタスクに特化して調整されたノイズ再構成に基づく効率的な長周期ビデオ生成手法を提案し、コンテンツシーンと動き調整の整合性を維持しつつ、100フレーム以上のビデオの作成を容易にする。 具体的には、デノイズ過程をシーン輪郭の形状と動きの詳細の精細化の2つの相に分解する。 次に、長距離雑音相関を保ちながら生成したフレーム列を制御するために、ノイズを再スケジュールする。 提案手法の優位性を示すため,商業ツールと学術手法の両方を含む10の基準線を用いた広範囲な実験を行った。 プロジェクトページ:https://wangqiang9.github.io/Controllable.github.io/

Generating realistic animated videos from static images is an important area of research in computer vision. Methods based on physical simulation and motion prediction have achieved notable advances, but they are often limited to specific object textures and motion trajectories, failing to exhibit highly complex environments and physical dynamics. In this paper, we introduce an open-domain controllable image animation method using motion priors with video diffusion models. Our method achieves precise control over the direction and speed of motion in the movable region by extracting the motion field information from videos and learning moving trajectories and strengths. Current pretrained video generation models are typically limited to producing very short videos, typically less than 30 frames. In contrast, we propose an efficient long-duration video generation method based on noise reschedule specifically tailored for image animation tasks, facilitating the creation of videos over 100 frames in length while maintaining consistency in content scenery and motion coordination. Specifically, we decompose the denoise process into two distinct phases: the shaping of scene contours and the refining of motion details. Then we reschedule the noise to control the generated frame sequences maintaining long-distance noise correlation. We conducted extensive experiments with 10 baselines, encompassing both commercial tools and academic methodologies, which demonstrate the superiority of our method. Our project page: https://wangqiang9.github.io/Controllable.github.io/
翻訳日:2024-05-29 10:46:21 公開日:2024-05-28
# DoRA:動的ランク分布を考慮したパラメータ効率の良いファインチューニング

DoRA: Enhancing Parameter-Efficient Fine-Tuning with Dynamic Rank Distribution ( http://arxiv.org/abs/2405.17357v2 )

ライセンス: Link先を確認
Yulong Mao, Kaiyu Huang, Changhao Guan, Ganglin Bao, Fengran Mo, Jinan Xu, (参考訳) 微調整された大規模な事前学習モデルは、本質的にリソース集約的なタスクである。 モデルの性能を高めることができるが、かなりの計算コストを発生させ、下流タスクの実践的な応用に挑戦する。 Low-Rank Adaptation (LoRA)のような既存のパラメータ効率の細かいチューニング(PEFT)手法は、ウェイト行列間の差分パラメータ予算要件を無視したバイパスフレームワークに依存しており、最適以下の微調整結果をもたらす可能性がある。 この問題に対処するために,動的低ランク適応法(DoRA)を導入する。 DoRAは、高いランクのLoRA層を構造化シングルランクのコンポーネントに分解し、トレーニング中の特定のタスクに重点を置いたパラメータ予算を動的に刈り取ることができる。 実験結果から,DoRAはLoRAやフルモデルファインチューニングと比較して競争性能が向上し,ストレージパラメータの予算が同じであれば,各種の強力なベースラインよりも優れることが示された。 私たちのコードはhttps://github.com/MIkumikumi0116/DoRAで利用可能です。

Fine-tuning large-scale pre-trained models is inherently a resource-intensive task. While it can enhance the capabilities of the model, it also incurs substantial computational costs, posing challenges to the practical application of downstream tasks. Existing parameter-efficient fine-tuning (PEFT) methods such as Low-Rank Adaptation (LoRA) rely on a bypass framework that ignores the differential parameter budget requirements across weight matrices, which may lead to suboptimal fine-tuning outcomes. To address this issue, we introduce the Dynamic Low-Rank Adaptation (DoRA) method. DoRA decomposes high-rank LoRA layers into structured single-rank components, allowing for dynamic pruning of parameter budget based on their importance to specific tasks during training, which makes the most of the limited parameter budget. Experimental results demonstrate that DoRA can achieve competitive performance compared with LoRA and full model fine-tuning, and outperform various strong baselines with the same storage parameter budget. Our code is available at https://github.com/MIkumikumi0116/DoRA
翻訳日:2024-05-29 10:46:21 公開日:2024-05-28
# 安全景観のナビゲーション:大規模言語モデルの微調整におけるリスクの測定

Navigating the Safety Landscape: Measuring Risks in Finetuning Large Language Models ( http://arxiv.org/abs/2405.17374v2 )

ライセンス: Link先を確認
ShengYun Peng, Pin-Yu Chen, Matthew Hull, Duen Horng Chau, (参考訳) 安全アライメントは、人間の嗜好に沿う大きな言語モデル(LLM)の行動を導く鍵であり、推論時に有害な行動を制限している。 我々は, LLMの安全景観をナビゲートすることで, LLMの微調整のリスクを測定することを目的としている。 一般のオープンソース LLM のモデルパラメータ空間において,ランダムな摂動モデル重み付けは,その近傍で元のアライメントモデルの安全性を保ちながら,"安全盆地" と呼ばれる新しい現象が普遍的に観測されている。 我々の発見は,LLMファインタニングの安全性を安全景観を探索することで測定する新しいVISAGE安全指標を提案するきっかけとなった。 整列モデルの安全性の景観を可視化することで,モデルからモデルを引き離すことによって,微調整がいかに安全性を損なうかを理解することができる。 LLMの安全性の展望はまた、モデルを保護する上でシステムプロンプトが重要な役割を担い、そのような保護が安全盆地内の摂動する変種に伝達されることを強調している。 安全景観研究から得られたこれらの観察は、LLM安全コミュニティにおける今後の研究に新たな洞察を与えてくれる。

Safety alignment is the key to guiding the behaviors of large language models (LLMs) that are in line with human preferences and restrict harmful behaviors at inference time, but recent studies show that it can be easily compromised by finetuning with only a few adversarially designed training examples. We aim to measure the risks in finetuning LLMs through navigating the LLM safety landscape. We discover a new phenomenon observed universally in the model parameter space of popular open-source LLMs, termed as "safety basin": randomly perturbing model weights maintains the safety level of the original aligned model in its local neighborhood. Our discovery inspires us to propose the new VISAGE safety metric that measures the safety in LLM finetuning by probing its safety landscape. Visualizing the safety landscape of the aligned model enables us to understand how finetuning compromises safety by dragging the model away from the safety basin. LLM safety landscape also highlights the system prompt's critical role in protecting a model, and that such protection transfers to its perturbed variants within the safety basin. These observations from our safety landscape research provide new insights for future work on LLM safety community.
翻訳日:2024-05-29 10:46:21 公開日:2024-05-28
# LOVECon: ControlNetによるテキスト駆動トレーニングフリーの長編ビデオ編集

LOVECon: Text-driven Training-Free Long Video Editing with ControlNet ( http://arxiv.org/abs/2310.09711v2 )

ライセンス: Link先を確認
Zhenyi Liao, Zhijie Deng, (参考訳) ビデオ編集のための事前学習条件付き拡散モデルを活用することは、映画制作や広告などにおいて約束されているため、さらなる調整をせずに注目されている。 しかし、この行のセミナー作品は、生成長、時間的コヒーレンス、あるいはソースビデオへの忠実さに欠ける。 本稿では,このギャップを埋めることを目的として,学習自由拡散モデルに基づく長大ビデオ編集のための,シンプルで効果的なベースラインを確立する。 先行技術によって示唆されたように、我々はテキストプロンプトに基づいて様々な画像編集タスクを排他的に行うControlNet上にパイプラインを構築している。 計算メモリの制限によって引き起こされる長さの制約を解消するために、長い動画を連続するウィンドウに分割し、グローバルなスタイルの整合性を確保し、ウィンドウ間の滑らかさを最大化するために、新しいウィンドウ横断アテンション機構を開発する。 より正確な制御を実現するため、DDIMインバージョンを用いてソースビデオから情報を抽出し、その結果を世代ごとの潜伏状態に統合する。 また,フレームレベルのフリッカリング問題を緩和するために,ビデオフレーム補間モデルを組み込んだ。 大規模な実証実験により,前景オブジェクトの属性の置換,スタイル転送,背景置換など,シナリオ間の競合するベースラインよりも優れた手法の有効性が検証された。 さらに,ユーザ要求に応じて数百フレームの動画を編集する手法も提案した。 私たちのプロジェクトはオープンソースで、プロジェクトページはhttps://github.com/zhijie-group/LOVEConにあります。

Leveraging pre-trained conditional diffusion models for video editing without further tuning has gained increasing attention due to its promise in film production, advertising, etc. Yet, seminal works in this line fall short in generation length, temporal coherence, or fidelity to the source video. This paper aims to bridge the gap, establishing a simple and effective baseline for training-free diffusion model-based long video editing. As suggested by prior arts, we build the pipeline upon ControlNet, which excels at various image editing tasks based on text prompts. To break down the length constraints caused by limited computational memory, we split the long video into consecutive windows and develop a novel cross-window attention mechanism to ensure the consistency of global style and maximize the smoothness among windows. To achieve more accurate control, we extract the information from the source video via DDIM inversion and integrate the outcomes into the latent states of the generations. We also incorporate a video frame interpolation model to mitigate the frame-level flickering issue. Extensive empirical studies verify the superior efficacy of our method over competing baselines across scenarios, including the replacement of the attributes of foreground objects, style transfer, and background replacement. Besides, our method manages to edit videos comprising hundreds of frames according to user requirements. Our project is open-sourced and the project page is at https://github.com/zhijie-group/LOVECon.
翻訳日:2024-05-29 10:35:18 公開日:2024-05-28
# 変分推論のための変分パラメータ空間上のワッサーシュタイン勾配流

Wasserstein Gradient Flow over Variational Parameter Space for Variational Inference ( http://arxiv.org/abs/2310.16705v2 )

ライセンス: Link先を確認
Dai Hai Nguyen, Tetsuya Sakurai, Hiroshi Mamitsuka, (参考訳) 変分推論(VI)は、変分パラメータを調整し、変分分布を真の後部と密に整合させる最適化問題である。 最適化タスクは、ブラックボックスVIにおけるバニラ勾配降下または自然勾配VIにおける自然勾配降下を通じてアプローチすることができる。 本研究では,<textit{variational parameter space} 上で定義された確率分布を対象とする対象の最適化として VI を再構成する。 次に、この最適化問題に対処するためのワッサーシュタイン勾配降下法を提案する。 特に、ブラックボックス VI と自然勾配 VI の最適化手法は、提案されたワッサーシュタイン勾配勾配の特定の例として解釈することができる。 最適化の効率を向上させるため,離散勾配流の数値解法を開発した。 提案手法の有効性を, 理論的解析によって補足された合成データセット上での実験実験により検証した。

Variational inference (VI) can be cast as an optimization problem in which the variational parameters are tuned to closely align a variational distribution with the true posterior. The optimization task can be approached through vanilla gradient descent in black-box VI or natural-gradient descent in natural-gradient VI. In this work, we reframe VI as the optimization of an objective that concerns probability distributions defined over a \textit{variational parameter space}. Subsequently, we propose Wasserstein gradient descent for tackling this optimization problem. Notably, the optimization techniques, namely black-box VI and natural-gradient VI, can be reinterpreted as specific instances of the proposed Wasserstein gradient descent. To enhance the efficiency of optimization, we develop practical methods for numerically solving the discrete gradient flows. We validate the effectiveness of the proposed methods through empirical experiments on a synthetic dataset, supplemented by theoretical analyses.
翻訳日:2024-05-29 10:35:18 公開日:2024-05-28
# 言語モデルのためのパブリック検出可能な透かし

Publicly-Detectable Watermarking for Language Models ( http://arxiv.org/abs/2310.18491v2 )

ライセンス: Link先を確認
Jaiden Fairoze, Sanjam Garg, Somesh Jha, Saeed Mahloujifar, Mohammad Mahmoody, Mingyuan Wang, (参考訳) 検出アルゴリズムには秘密情報が含まれておらず,誰でも実行可能である。 リジェクションサンプリングを用いて、LLM出力に公開検証可能な暗号署名を埋め込む。 提案手法は, 暗号的に正しい, 音響的, 歪みのないものであることを実証する。 従来の透かし方式における障壁である低エントロピーの周期を克服するために, 誤り訂正手法を新規に活用する。 提案手法を実装し,2.7Bから70Bのパラメータ範囲におけるオープンモデル上での経験的測定を行う。 我々の実験は、我々の正式な主張が実際に満たされていることを示唆している。

We present a highly detectable, trustless watermarking scheme for LLMs: the detection algorithm contains no secret information, and it is executable by anyone. We embed a publicly-verifiable cryptographic signature into LLM output using rejection sampling. We prove that our scheme is cryptographically correct, sound, and distortion-free. We make novel uses of error-correction techniques to overcome periods of low entropy, a barrier for all prior watermarking schemes. We implement our scheme and make empirical measurements over open models in the 2.7B to 70B parameter range. Our experiments suggest that our formal claims are met in practice.
翻訳日:2024-05-29 10:35:18 公開日:2024-05-28